欧巴输了第一局，所以 VC 会投资围棋机器人吗？

秋寒无梦 · 发表于 2017-9-6 21:20:26

这几天中午很多人都不能好好吃饭了，更重要的事是围观一场 “人机世纪大战”——Google 旗下 DeepMind 团队研发的围棋人工智能程序 AlphaGo （已击败欧洲围棋冠军樊麾），对决全球最顶尖的围棋选手李世石欧巴。代表人类一方的欧巴命运将会如何？（心疼欧巴），人类自己研究出来的机器是否已经能超越人类？人类的未来将走向何方？
为此，我们采访了IDG 内部最神秘最科技最智能的技术小组：他们怎么看这次大战？IDG 对于人工智能的投资逻辑又是什么？
一、关于人机大战
Q1：怎么看人工智能的进步？
“是否能保住人类最后的智力骄傲” 这个问题这两天大家讨论的尤其火，其实通过人类智慧开发出来的智能机器战胜了自己，本身就是一个骄傲。相反，如果再经过多年努力，人工智能还没有实质性的突破，那对于人类科技发展来说，才是个巨大的打击。
劝大家不必太悲伤看待，因为凡是可以分步骤、定规则、可运算的，机器超越人类只是时间问题，从 1952年会下井字棋、1996年“深蓝” 赢了国际象棋、到 2011年IBM Watson 赢了 Jeopardy，拜摩尔定律所赐，这种提升速度看似比人类智力进化快了许多，但实则是人类多年智力进化成果的一种转移和表现形式。就拿这次的 alphaGo 来说，就是在人工制定的基本规则框架下，对历史上很多很多人类下棋规律的统计，得到现在的表现的。换句话说，人工智能，关键还是在人工。还是那句话，21 世纪什么最重要，人才！
Q2：人工智能还有哪些地方需要攻克？
根据维基百科的定义：“智力或智能是指生物一般性的精神能力。这个能力包括以下几点：理解、计划、解决问题，抽象思维，表达意念以及语言和学习的能力。”
理解了人工智能就是人工的表现形式，你就会明白，即使在围棋上胜出，也并不代表机器的 “智力” 已经全面超出人类的。近些年，人类已经在自然语言处理（听、说）和机器视觉（看）上取得了长足的进步，你也能看到越来越多的产品标榜了这些功能。但是人工智能还有很长很长的路要走，或许当未来某一天，AlphaGo 在某项智力比赛中赢了人类，然后心花怒放并喜形于色的时候，这才真正的恐 (hao) 怖 (wan) 的时代。
二、关于人工智能的 ABC
（业内人士可直接到文末看 IDG 的投资逻辑）
Q1：铺天盖地的人工智能？到底啥是人工智能？
A：现阶段产品端能见到所谓的人工智能，绝大部分指的是机器与人之间拟人的交流方式，主要就是 “听得见、听得懂，看得见、看得懂”，再进一步，就是好像还能 “记点事儿”。其中 “听得见” 和 “看得见” 是硬件解决的，换句话说就是话筒和摄像头的事儿，所以智能主要体现在 “听得懂”（语音识别 + 语义理解）和 “看得懂”（图像识别）。大家经常看到的 “机器学习”、“神经网络”、“深度学习”，都是解决这类问题的一些具体的算法。P.S.那篇很火的知乎问答《如何看待谷歌人工智能 AI 击败欧洲围棋冠军？》就提到了 “神经网络”。
Q2：能解释一下你刚刚提到的各种高大上的名词吗？
A：按照便于大家理解但是并不严谨的方式来说，“机器学习” 就是统计，在大量数据中统计出来一些具体的参数；“神经网络” 简单说就是 “分级优化”；“深度学习” 是机器学习的一个分支，经常和神经网络一起出现，可以简单的理解为分级优化中每一级的内容都是从数据中统计出来。这些名词我们放在具体的例子中就比较好理解了。
Q3：给我们讲讲语音识别？
A：我们先从语音交互的第一步，“语音识别” 开始。（如图所示）声音从源头发出（声源），被话筒接收，转化成电信号。这个电信号放大来看，是一些连续的波形信号。我们把这个连续的信号截成一小段一小段的，每一小段通过一种方法转换成一小串数字，这样才能进行后面的处理。
转换的方法是这里面最重要的一步了。这套规则，可以是依据经验人为制定的，也可以是通过大量数据的统计，辅助制定和优化的。后面这种方法就是我们所谓的深度学习，我们放到图像识别里面讲，更好理解一些。
转换了以后就是一个与标准库比对的过程了。比如说，现在这个音，转换完以后是（前半音）XXX XXX XXX XXX +（后半音）YYY YYY YYY YYY，然后标准库里面 A 的发音对应特征值是 XXY YYX XXX XXX+YYY YXX YYS YYZ，B 的发音对应特征值是 XXY YYY YYY YYY+YYX YYX XXX YYY，那我们就知道这个音与 A 更接近（75%），不太可能是 B（17%）。
更高级一点，还可以根据先后顺序的关系进行匹配，比如按人类的语言习惯，A 之后接 B 的概率更高，接 K 的概率很低，把这个概率算进去，准确率能进一步提升。
Q4：这个标准库怎么来？
A：比如说，你找 100 个人读 1000 次 A，然后让机器把这每一个都转换成特征值，总的一起取个平均值，就出来 A 的标准库了。这个标准库是基于大量数据统计出来的结果（取平均值也是一种统计方法），这个过程就像是机器自己听了很多遍学会了一样，所以称为 “机器学习”。除了读音，各种组合的前后关系，也都是统计出来的。
标准库的建立要尽量的复合实际场景，这样才能找出更符合使用场景的统计规律，从而达到更精准的识别。高大上的产品，比如说科大讯飞，多年的积累使得其可是支持多种方言，比如说出门问问，能支持几十个场景。说白了，这个是一个劳动量密集的体力活。大公司，钱多人多，可以做大而全；小公司，有限资金有限工作量，在有限场景下，用户感知不出来任何区别。
Q5：语音识别和语义理解是什么关系？
A：可以这么理解，所谓语音识别，是把音翻译成字和句；语义理解，则是针对句子，给予反馈。语义理解可以分为两种类型，一种是命令 / 数据索取式的，有明确答案的；一种是聊天式的，开放性答案的。
第一种，比如问：北京今天空气质量如何？答：空气指数 356。这个回答与问题的对应关系，称之为 “规则”。问同一个问题有比较多种问法，为了扩大每一个规则的适用范围，需要做一些语言结构的拆分重构，主谓宾定状补，灵活调整。
比如顺序的调换：北京今天空气质量如何？VS 今天北京空气质量如何？
比如替换同近义词：北京今天空气质量如何？VS 北京今天天气质量如何？
更进一步的，可以增加上下文理解。比如记住上一句话的内容，替换一个下一句话的词汇。
1 层对话像这样：
问：今天上海空气质量如何？答：空气指数 135
问：北京呢？答：空气指数 356
更高级的还可以有 2 层对话：
问：帮我在上海订一个今晚的酒店。答：好，在帮您预订
问：空气质量如何？答：空气指数 135
问：北京呢？答：空气指数 356
Q6：那聊天式的呢？
A：这种问题的答案通常是开放式的，比如说，问 “你在干嘛呢？”。
这种回答可以是事先人为设定好的规则，常见于一般的寒暄，用户会发现重复问机器人同样的问题，每次答案可能不同，比如 “我在陪你聊天啊”、“不告诉你”、“你猜” 等等，但问的次数多了就开始有重复了。
这种回答也可以是从巨大的真人对话库中进行搜索得来的，返回出现概率最大的回答。比如说，可以搜索同义的问题，如 “你干啥呢？”，“你弄啥咧？”，然后发现排名最多的回答是 “闲着”、“你猜”、“不告诉你”，那机器就会返回这些回答。
一般情况下，这两种方式在具体的产品中都会使用。具体到小冰，主要是使用的后者，对话库来源主要是在网络上爬取的（直接调用 MSN 信息可能会涉及隐私问题）。考虑到返回结果较随机，对其的二次理解较为困难，这类聊天机器人通常都是不含上下文理解的。
Q7：结合前面讲的语音识别一起总结一下？
A：语音识别，就是一个积攒数据，进行统计的过程，一个劳动密集型的活儿。语义理解，不管是命令式的，还是聊天式的，除非可获取优质聊天记录资源（世界上有这样数据资源的公司就那么几家，当然我也见过有人花钱买人过来陪机器人聊天的），不然就是人工制定规则的事儿，又是一个劳动密集型的活儿。工作量越大，机器人就显得越聪明。从公司维度来说，有限场景下，小公司深耕细作，有机会比大公司更好；大公司则能背靠资源，在更多场景下有所覆盖。
再用最精炼的话总结一下——多少人工，多少智能；就算聊天，也不智能。一般的壁垒就是工作量！语音是收集素材的工作量；语义是制定规则的工作量；在有限场景范围内，小公司在产品上比大公司没有劣势。
最后再提一句，机器学习 = 统计。
Q8：再说说图像识别？
A：嗯，我们先说最普通的图像识别是怎么做的。这里面我要盗用下 Andrew Ng 大神在 UCLA 的一次 talk 的 PPT（视频截图）。
人类在看一个物体时，大部分情况其实主要是看它的轮廓（并不是颜色或其他），所以我们希望机器也这么做。拿摩托车举例。第一步，通过图像处理算法，把摩托车的轮廓提取出来（美图秀秀类图像处理工具都有这功能）。第二步，我们把一幅图分成四份，分别统计 0°，45°，90°，135°四种的边的多少，然后把这些数字列在一起，我们称之为 “特征值”。这个特征值里面包含很多的信息，比如说，右下角的图中一般都有轮子，轮子是圆形的，也就是说，各个方向的边，应该都存在且比例相当；而右上角的图中，一般都有把手，所以某一个方向的边会比较多。通过这些数字的内在的关系，机器进行摩托车的判别。这样的方法看起来有些简单粗暴不合理，但目前许多机器确实就是这么识别的。
Q9：这确实看起来有点….，那如果加上深度学习和神经网络呢？
A：用上深度学习和神经网络，那就彻底改观了。
仔细想一下，我们给别人介绍某人的长相时，很喜欢说，这个脸长得特别像谁谁谁，然后发型有点像谁谁。也就是说，人类是通过一些基本脸型的组合来认人的。数学一点来看，有几个基本脸，然后一个新的人脸，就可以被简化成一串数字，每个数字代表某一个基本脸所占比重。
那好，基本脸从哪里来？脸的基础单元是部位，部位的基础是边，形状，是各种边的组合。所以要认脸，先找基础边。这些边怎么找？之前摩托车的例子中，边是认为定义的（4 种特殊角度）。人的设定，要么是偷懒，要么就是基于经验，而经验是大规模数据在人脑中统计之后得到的印象。如果换成机器自动做这个统计，那就叫机器学习。而这种由样本进行统计，一级一级的由简单的边开始，最终达到基本脸的机器学习（统计）过程，叫做深度学习。
具体来说，从左边第一张图，找到所有的边，再看第二张图，发现有些边重复的，就把这个关联变粗（用粗线表示，线越粗表示重复次数越多）。最终统计下来，有些边重复次数特别多，是重要的，就作为基础边。同样道理，我们从图中统计出来基础边的重要组合，就是基础部位，再深一层，就是基本脸。具体的运算过程会比较复杂，对应一种由节点（边、部位、脸）和节点间连线（粗细表示重要程度）的计算架构和相应算法，这个叫做神经网络。
Q10：总结一下图像识别吧？
A：图像和语音识别，核心都是特征值转换算法，即基础单元&数字表示。深度学习就是指基础单元库源于数据统计而非人为设定（合理，可解释）；神经网络指的是一级一级分级优化，权重连接（最简化基础单元库），这两个通常一起出现，使得结果既合理又简单。
大型神经网络价格较贵，每一个节点都是通过高性能 GPU 或者工作站进行实现，几百万美金的投入也就能购买几千个节点，所以这是大公司的游戏。小公司通常采用多个小神经网络，虽然识别准确率会受到一定的影响，但是在不较真的应用场景，比如说家用的人脸识别，中小规模公司用的门禁识别等等，已经可以足够好到用户分辨不出来了。
Q11：能否整体总结一下人工智能？
A：人工智能，首先是能听懂看懂（识别）。这一是收集数据（工作量），二是精进算法（可人工凭经验，或者大数据做统计）。对小公司来说，主要是工作量。
再进一步是能反馈（对话），除了天生有数据的以外，主要就是规则制定（工作量）和数据收集（工作量）。在比拼工作量的事情上，产品设计往往更为重要，该做什么不该做什么主要应该做什么，是小公司集中有限资源于一点突围的法宝。
再高一层，是有记忆。来过一次就记住你了，下次来直接就能叫出你名字；比如说你回家晚了，会主动的问候，这些都是产品设计的事情。
三、人工智能的投资逻辑
我们认为 To C 的人工智能，由于应用场景要求不十分严苛，且人才储备已经足够充足，已经由技术活更多的向产品活儿转变。所以在这个层面上说，我们愿意投资具有强大技术实力，但同时更是一个具有超强产品思维的团队，最鲜明的例子，就是 Rokid。如果你有机会尝试，想必你会被用户体验惊艳到。
至于To B 的人工智能，图像识别在苛求精准度的应用场景下，还是非常需要高大上的技术团队，从这个层面上讲，我们投资了 Sensetime；语义理解需要在特定场景下的深耕细作，需要特定场景下的大量数据，在这个层面上，我们倾向于专一行业深耕细作，所以投资了智齿科技。
至于标题中的问题，我们想说的是：一、VC 的投资核心在于生产产品和提供服务的公司，能真正被大家所用的解决实际痛点问题的产品和服务，如果再有一个 DeepMind 一样的高技术公司摆在我们的面前，我们投资的逻辑，不是能不能下棋，而是它未来能提供更完美的落地的产品和服务；二、AI 现有阶段，在语音语义和图像识别上，已经从技术活儿变成产品活儿，进而是我们的投资热点。
最后附上直播地址：http://v.qq.com/live/p/topic/4393/index.html ，一起围观吧！
原创文章，作者：IDG资本，如若转载，请注明出处：http://36kr.com/p/5044313.html
“看完这篇还不够？如果你也在创业，并且希望自己的项目被报道，请戳这里告诉我们！”