机器视觉会改变什么？

        今日，极客公园创新大会在北京开幕。格灵深瞳联合创始人兼CEO何搏飞作了主旨演讲。他分享了视觉的重要性，及视觉对人类产生的影响。
        何搏飞表示，我们大脑所接收80%的信息都源自视觉，同时大脑中接近一千亿个神经元，绝大多数只做一件事情，就是处理我们的视觉信息。
        为什么我们是一步步地从文字，发展到声音，最后才到动态视频？何搏飞认为，就是因为动态的视觉信息是最丰富，但也是最复杂的。
        那么机器有没有视觉？何搏飞表示，实际上在很多领域，机器视觉已经在改变我们的生活，他举了微软体感游戏的例子说，当我们做各种动作时，它会理解我们的行为，配合多媒体的体验，让我们有种互动和丰富的感受。
        机器有了视觉之后会产生什么影响？何搏飞分享了几个案例来阐述，机器视觉可以给予我们一个更加互动、更加健康、更加便捷的世界。
        格灵深瞳创立一年多就拿到了两轮融资，去年获得了红杉资本数千万美元的A轮融资。比尔·盖茨访华时还专门造访了格灵深瞳。何搏飞毕业于美国斯坦福大学，他和联合创始人赵勇的愿景是将格灵深瞳打造成一家千亿级的人工智能公司。
        以下是笔者整理的何搏飞的演讲实录：
        大家好！“Vision”这个单词在任何一本英汉词典里，第一条解释就是视觉，视觉是什么？视觉是一种感知能力。我们人身上一共有五种感知能力，包括视觉、听觉、嗅觉、味觉和触觉。
        余凯博士刚才讲到人工智能的本质就是自主学习的能力。我们人的大脑之所以这么聪明，这么复杂，这么高级，就是因为我们人可以自主地学习，而自主学习能力主要源自这五种感知能力。
        这五种感知能力中，我们大脑所接收的80%的信息都来自视觉，我问大家一个问题，如果我们不得不放弃四种感知能力，只保留一种，你会保留哪一种？
        我相信在座的很多人答案跟我一样，你会保留视觉信息。大家有没有想过为什么？我们都知道有这样一个数据，我们的大脑分成两半，左脑和右脑，左脑是理性，右脑是感性的，是有创造力的。
        还有一个数据可能大家并不知道，我们大脑有接近一千亿个神经元，绝大多数只做一件事情，就是处理我们的视觉信息。大家想想当我们休息时，会做什么，通常会闭上我们的眼睛，所以每一天当我们的眼睛睁开时我们在主动或者被动地接受大量的复杂信息。
        大家知道，我们人类主要是通过学习来成长，智慧也是在这样的过程中提高。那么分享知识就非常重要。从几千年前开始我们人类就把文字编辑成书。但文字承载的信息量是有限的，我们还希望它更加的丰富多彩。
        所以到了100多年前有了电话，我们可以远距离的让听到我们的声音，后来我们就了广播，终于几十年前我们有了电视，到了十年前最近这段时间大家知道在网络带宽成为可能的情况下视频网站才成为可能。
        为什么从文字，到声音，到视频，一步一步到几千年前，到最近几年，才能随时随地的分享动态的画面视频？没有其他原因CONTROL ENGINEERING China版权所有，就是因为动态的视觉信息是最丰富的，也是最复杂的。
        当我们讨论人工智能，讨论计算机、机器是否有学习能力时，我们首先要问自己一个问题，那就是机器有视觉吗？我必须要这样讲，在今天绝大多数场合下，对我们绝大多数人来说，机器是没有视觉的，机器是瞎子。
        你们可能会反对我，会说我在用手机拍照，我的电脑上也有摄像头，大街小巷有这么多摄像头，难道它们不都是机器的眼睛吗？难道这不是视觉吗？但是大家想一想，当我们拍了这些照片视频，最终计算机看懂这些视频照片了吗？
        我们把它存下来，不管是单反相机、摄像机，拍完以后，最终还是要人处理这些信息。为什么？因为在绝大多数情况下，电脑是无法处理这种复杂信息的。
        机器视觉给予我们一个更加互动的世界
        但今天我也要告诉大家，实际上在很多领域，机器视觉已经在改变我们的生活。当我说到这儿时，可能很多人马上会想到的第一件事情是微软的体感游戏，当你做各种动作时它会理解你的行为，配合多媒体的体验，你会感受到互动和丰富的感受。
        所以，当机器有视觉的时候，首先带给我们的就是一个更加互动的世界。在这儿我给大家看一段特别有意思的视频，我的朋友黄沙，就用微软的这个传感器拍了一段动感的视频。
        我们知道，好莱坞电影和美剧在制作过程中会有一个绿色的背景，它就是做一件事情，就是把人和背景区分开，这样后期制作时，就可以把绿色背景换成任何的场景，但有了三维计算机视觉，任何在座的每个人都能超越好莱坞特效师，更好地完成精彩的动画，这只是个简单的例子。
        机器视觉带给我们一个更加健康的世界
        当机器有了视觉以后，还会给我们带来一个更加健康的世界。举个例子，在我们做心脏手术时有一件特别痛苦的事。大家知道，人的心脏是唯一不能够被麻醉药麻痹使它静止的器官，只要人活着心脏就会不停的跳动，在跳动的心脏上做手术难度是非常大的。
        所以，很多时候当要对心脏做手术的时候，医生做的第一件事情就是通过医学的手段让心脏停止跳动，然后用最短的时间做完手术再让心脏重新起搏，但将有30%心脏将会永远不能再跳动起来。但如果有一种技术使医生在跳动的心脏上做手术将会挽救很多人的人。
        大家想一下，人的心脏跳动是非常有规律的，如果手术刀可以跟心脏同频率振动，医生通过摄像头看到的就是相对静止的心脏，那时动手术就相当于在静止的心脏上做手术。
        这个画面上，白色的网格就是要做手术的区域，通过计算机深度视觉，已经把它稳定下来了。心脏手术很多人看了可能会不舒服，所以我们做了这样一个演示，医生给葡萄剥皮，这在国外已经应用了，我相信不会很久中国也会应用。
        机器视觉创造一个更加便捷的世界
        刚才余凯博士也谈到了自动驾驶汽车，大家想一想，当自动驾驶这一天来临时，我们将有一个更加便捷的世界。各位极客可能对刚刚过去的2015美国电子消费展 CES 有更深刻的印象。
        除了智能硬件以外，应该说2015年今年是自动驾驶的元年。奔驰、宝马、尼桑，几乎所有的车厂都在今年推出了自己自动驾驶汽车的计划，很多车厂宣称在2020年，就是五年以后，他们的自动驾驶汽车就会跑在大街小巷。
        我在这里有个判断，我个人觉得，自动驾驶汽车，将会是第一个真正被人类大规模使用，且对人类生活产生颠覆性影响控制工程网版权所有，真正意义上的机器人。因为当汽车可以自动驾驶时，它对我们来说才是一个真正智能，不需要人为干预的机器人。
        大家可能都看到过左边这辆汽车，它其实就是Google的无人驾驶汽车。Google应该说是到现在为止全世界第一个让自动驾驶汽车在人类的公路上行驶超过100万公里的公司。
        我曾经跟Google无人驾驶汽车负责人聊过，当时我开了个玩笑，你们Google自动驾驶汽车业只敢在美国这样的城市测试，敢来北京测吗？他当时告诉我，无人驾驶汽车这件事情要成功，最大的障碍和挑战只有一个，那就是计算机视觉。
        大家想一想，控制汽车的方向盘、油门、刹车，这些事情简单的传感技术就可以解决，甚至如果是一个纯电动车的话，可能一个软件就可以解决。告诉汽车，从A到B你的目的地在哪，这件事情GPS就可以解决。
        但面对路上发生的一切，可能很多人也学过，所以大家都知道，特别是现在自动挡的车，要把车开起来非常容易，开车真正难的是如何应对路上各种复杂的状况，而这些需要的就是视觉的感知能力。我们想一想，如果没有视觉感知，你如何知道前面有行人在穿越马路，必须要依靠计算机视觉。
        大家可能也知道，格灵深瞳是把计算机视觉技术应用在监控领域的公司，为什么到处有这么多摄像头，连接到监控中心，有很多人盯着它看，为什么还需要计算机视觉，我们需要人工智能做这么多事儿吗？
        我在这里给大家假象一个场景，如果让你在你自己家里，你在看电视，比如时下特别热门的一部电视剧，在很认真的看，这时又把ipad摆在前面观看意甲联赛，同时你的朋友还在给你发微信，三个屏幕。
        我跟你打个赌，给你10分钟时间，10分钟以后我随机考你这三个屏幕的内容，我相信在座很少有人跟我赌，为什么？因为三个屏幕展示的东西动态画面的时候，对人来说信息太复杂了。
        但想一想，安保中心监控室面对的是这样一个屏幕，我看了很多美剧电影，有那么多高端技术，我可以告诉大家，我曾经参观过拉斯维加斯所有大赌场后台的监控中心，跟中国任何一家普通银行的监控中心没有任何区别CONTROL ENGINEERING China版权所有，都是这样一个大屏幕，几个人盯着这个屏幕在看。
        我自己在监控中心呆过可能超过100个小时，我当时去的时候正好是世界杯期间，保安们大多数在玩儿手机、看球赛，但相信我，如果让你们去，这不是职业道德的问题，人类是有极限的，当人盯着这样一个大屏幕看，超过10分钟时，说实话你其实跟什么都没看一样。
        所以大家想象一下，现在屏幕上所显示的一共是10个大屏，每个大屏16宫格，也就是160路视频。北京机场就有几万路视频，也就是说，如果把每一路视频放一分钟把这些视频轮一遍，就需要5万个小时。所以，发生事情能看到吗？
        每时每刻，每一路视频我们都把它存下来，最后我们当证据用。是的，但你想一想，这么多路视频无时不刻都在存，全世界每卖出两块视频，其中有一块就是卖给安防监控视频的。当有这样海量数据的时候，人类如何处理？
        所以大家想象一下，如果我们可以把每个摄象头，都换成一个智慧像小机器人一样帮我们盯着，当发生问题的时候就可以第一时间预警。所以，当我们的机器有了视觉的时候，我相信大家都能够看到，我们的世界会变得更好。
        但是当世界变得更好时，我们人会变成什么样呢？可能你会说人会变得更高、更快、更强，那是奥林匹克精神，其实在我看来，我个人觉得我们人的愿望，其实一开始就跟更高、更快、更强是相反的，我们有时候经常说越是说什么越是代表不具备什么。
        我自己有个观点，我总觉得，人类从一开始所有技术进步的唯一源动力，就是把自己解放出来，或者说的更直白一点，就是让自己变得更懒。
        今天有很多服务都可以上门，O2O上门美甲、洗车，所有事情都是把人类解放出来。每次重大的技术革命，比如17世纪的蒸汽机革命，19世纪的电力革命，近代的信息革命。工业革命发生以后，机器可以开始取代人类做一些简单的体力劳动，我们的四肢被解放出来，去到一个地方不再需要走路去，可以坐车去。
        随着电力革命、信息革命，到今天大脑一部分功能都已经被计算机所替代。比如我们要去做运算的时候，我们可以用计算器，电脑、手机也可以帮助我们记忆、存储。
        但是我觉得，这就是为什么我总觉得，人工智能这件事情一定会实现，因为从潜意识里，人一定会不懈的朝着这个方向努力，因为对人来说，最终最难被解放的两个器官，一个是眼睛、一个是大脑。
        也曾经有人问我说，大家可能也都知道，马斯特和霍金都对人工智能发表了很多威胁论，人工智能成熟以后是不是有很多人会失业？
        我对这个问题是这么看的。技术变革时，都会迫使我们做更有创造力、更高级的事情。举个例子，比如农民工进城，过去做农活这是个相对来说更加简单的体力劳动，而当这样的体力劳动被机械化所替代时，我们的农民工来到城里，他们做了泥瓦匠、水电工、月嫂，他们挣的钱比我们很多人都多。
        而未来人工智能替代人做更多事情时，人会逼迫做更高级的事情。而人能做什么呢？去交流、去分享、去进步、最终去进化。所以人做的所有事情，最终就是想实现一件事情，那就是人工智能，把我们的大脑彻底解放出来，让人自由自在地做有创造性的事。
        今天我们这个论坛的主题叫X论坛，“Vision”这个词的第二条解释是“远见”，也就是在未看见的时候，就能通过想象力看到未来。今天我希望大家在一起分享www.cechina.cn，能跟我一样CONTROL ENGINEERING China版权所有，看见未来其实就在我们眼前。谢谢！

MVTec 发布 MERLIC 新版本：全新功能让机器视觉更易集成、更易使用

ABB发布新一代数字智能、长寿命pH/ORP 传感器

水处理智能加药控制技术白皮书 | 昆仑海岸

图说工控

频道推荐

在线研讨会

关于我们

CE全球

网站地图

新闻中心

子站

技术频道

社区

社区

联系我们

友情链接