分瞰机器视觉，业界与学界有何不同？——云从专家第一次分享会实录

发表于机器视觉 2016-12-09 16:04 阅读量: 1,297

小科说

机遇还是泡沫，当前机器视觉领域的状况是怎样的？

学界和业界，视觉人才该去向哪里？

大牛或小白，云从最想要哪种人才？

第一周，我们邀请了云从科技的曾丹老师进行了网络分享直播，曾老师结合自己在学界和业界的积淀，为机器视觉实战训练营的学员们指点迷津。

以下为曾丹老师分享实录。

Q1 业界和学界在图像领域所使用的技术目前的接轨情况是怎样的？（学界的方法进步非常快，不知道业界现在是怎样的情况？

可能大家更关心的是怎样将自己在学校的学术研究，和工业的应用结合起来。实际上，在2013年以前，图像领域在学术界和工业界的接轨地并不如现在这么好。究其原因，并不是说学术界做的事情是工业界所不需要的，而是学术研究随着技术的发展逐步走向实用化。

事实上，在以微软为代表的公司里，工业界做的研究始终是和学术界保持一致的，甚至在很多方面更加靠前。如今大家感觉学术界和工业界高度地融合，比如说中科院的自动化所、计算所，比如我们云从的创始人周锡老师，比如中科院的山世光老师等等，都投身工业界。而同样地，微软的很多大牛——商汤、旷视等，都从微软研究院转到工业界了。现在的状况是学术和工业建设紧密结合，随着技术的发展，我们研究的东西变得可以使用了。比方说人脸识别的识别率，从当时的80%提高到90%朝上接近100%，这就使得我们的学术研究更加实用化，加速了学界跟工业界的高速融合，大家在一起往前走。

Q2 图像领域的变现是不是比较困难？这一领域的公司有很多，行业是不是有泡沫呢？

实际上，图像领域和语音领域的变现都存在困难，现在语音识别的公司都还没有实现在语言应用方面的盈利，而是结合语音，做了很多行业的综合解决方案。比如说科大讯飞，它在语音这块，是国内最好的公司之一，但是他们在很多业务中，实际上也是集成商的身份，就是做一些和语音相关的系统解决方案。

相对来说，图像应用的范围会更广，这位同学提到的图像领域实际上就是太广了。我举一个简单的例子，为什么图像可能比语音更好变现呢？因为我们人获得信息，70%以上是通过视觉，而听觉只占10%-20%，所以我们的信息来源主要是靠图像。那么如果单单把行业划分成语音和图像的话，显然是图像领域更为广阔。那么所谓的这个泡沫呢？这个行业中肯定是有的。以人脸识别为例，现在的公司非常多，大家的目标本身就不一样。比如说云从是想扎扎实实地做一些落地的项目，而有一些公司，可能这个饼画的更大，那么就存在一个想象空间，这其中就会存在泡沫了。

Q3 人脸识别目前除了安防监控、美颜这些应用，业界还有什么正在探索的方向吗？

目前业界人脸识别用的最广泛的除了安防、监控，还有银行。事实上，国内人脸识别用的最多的就是银行业，毕竟跟大家关心的互联网金融息息相关。随着互联网金融的发展，银行网点的存在价值变得越来越低，而线下银行网点的成本相对来说又比较高，越来越多的金融应用会往互联网上发展，那么就产生了大量的身份认证的需求。所以银行在人脸识别方面用得也就非常多。

除此之外，人脸识别可以触及到我们所有的生活领域。比如安防，它可以延伸到我们刷脸的门禁、车的应用等。云从之前在北京车展上，为阿斯顿马丁做了一个应用。这个应用绑定了每个车主及其家人的人脸，之后就可以通过人脸识别来开车，自动地调整驾驶员想要的设置：座椅的高度、方向盘的距离、车内的温度、播放的歌......人脸识别可以应用到所有跟身份及个性化有关的应用中去，由于它是一种非接触、无感知的识别方式，在日常生活中可以得到广泛的应用，因此拓展的空间非常大。

Q4 业界目前在人脸识别的产品落地上，主要的瓶颈是什么？比如说是数据还是商业模式呢？

其实问这个问题的同学已经作出了回答，当然除了数据和商业模式，还有其他更多的瓶颈。比方说算法本身就存在问题，它还不能达到一个精确解。人脸识别对任何落地的应用来说，都永远无法达到百分之百，所以在核心技术的研究上，还需要大家不断去努力，这也是为什么，即便我们已是国内一线的公司，还要不断地加大研发投入。

那么这位同学说到的数据，也是目前阶段最最重要的一个因素。你做深度学习，网络那么大，当然要大量的数据。此外商业模式也是很重要的，商业模式决定你的公司和产品是否可以盈利，或者是否有足够的想象空间，也会决定一个公司的成败，所以商业模式是大家在产品落地时最需要考虑的。

Q5 了解到曾丹老师有学界和业界的双重工作经历，可否说一下怎么平衡好这两个领域的差异呢？

其实学界和业界的冲突没有那么严重了，因为研究的东西都是接近实用的一些方法，所以现在是非常幸福的一个时候，就是有前途也有钱途。现在你做人脸识别、或者人工智能方向的研究，不光有学术上的前途，也会有money。(笑）

今天大部分同学（指参与机器视觉实战训练营QQ群直播的学员们）可能是本科生，或者是硕士的低年级，就是还没有很深入到人工智能这个领域中来。我觉得只要对人工智能感兴趣，你定位成未来做科学研究，或者是早一些到工业界来做研究，实际上问题都不大，大家做的事情非常的接近。只是说在工业界，强调真正实用，需要做出实用的、真正work的东西来。而在体制内，所面临的个人能力的评定机制不一样，可能你会有发文章、申项目的压力。那么这些因素下呢，你想的可能不是我研究的这个东西能不能work，而是能不能发高影响因子的论文。而大家看过一些论文就知道，很多都是在一些大家已经公开的数据集上做的实验，那么这些在闭合场景下做的科学研究中，真正实用的、效果好的方法并不是很多。所以大家现在的选择会影响到你未来工作的侧重点，但是作为一个有理想的、有热情的研究者，我觉得到哪里都是可以发光发热的。

Q6 以后的学界和工业界各需要什么样的能力，是不是说我学而优就可以到公司去做？

现在从学界到工业界的例子也不少，但是也有一年前进入到工业界，然后又撤退回学界的。可能会有很多因素让一些在学界的人进入工业界，我认为其中很大部分原因在于投资领域太火了，但是你说是不是所有学界的人都适合到工业界来？我觉得很难讲。我认为大部分学界的人是不适合到工业界来的，如果你希望做工业界的东西的话，在学校打好一定的基础后，就尽早地进入工业界来。

你不一定要去创业公司，当然你也可以来我们这样的创业公司，不过更苦更累，但是收获也会更大。还有一种选择就是去微软、谷歌这些非常知名的研究院，对大家未来的帮助也很大。实际上在学校做研究，瓶颈还是挺大的，因为现在国内的高校对论文、项目的要求非常高，如果你要追求学校的职称晋升的话呢，你一定会被迫投入很多的精力在上面，所以国内的高校难有成功跨界到工业界的，但是在研究院成功的概率又稍微高一点。

Q7 很多同学有意愿加入云从，云从现在都有哪些技术岗位在招聘，需要应聘者具备哪些技能和素质？

云从这边一直有一系列针对不同岗位实习生的计划，主要集中在两个部门，一个是算法研究部门，还有一个是产品部。

在算法研究部门，会更偏向于想一些深度学习的算法，因为人脸识别的链条非常长，人脸检测、跟踪、质量评估、特征比对这一系列的算法都有特定的组，就是说分的非常细。我们会招一些实习生来，进到各个组里去了解整个人脸识别中比较好的一些算法，做一些研究。那么算法研究部门就希望大家有一定深度学习的基础、有学习的热情、渴望成为这方面的专家，因为研究算法跟产品开发不一样嘛。

那么产品开发这块呢，其实有两类岗，一类是研发工程师，偏向于编程的技能，比如coding、java、C++、安卓等岗位。但是，我不太建议深度学习这个领域的学生过早地去做coding，因为你们的发展空间可能更大。你们现在coding的能力还不是很强，还进入不了最核心的组，只能做一些外围的东西，对你们的成长不是最有利。但是如果你就是希望成为coding高手的话，我也欢迎你来。我觉得产品组这边更有意思的一个事情，就是怎么样把人脸识别这个技术落地成一些产品。我们非常欢迎喜欢产品设计、市场分析的同学加入我们。

那么具体的产品开发岗位有哪些技能的需求，我觉得可以从几个方面来考量。首先是对产品设计和产品落地的这种热情，另外就需要大家有比较好的表达能力、文章写作能力和沟通能力。而这一块主要体现在哪里呢？就是说我们设计、落地一个产品之前，要做大量的用户调研和需求分析，还要和行业的上下游进行沟通，然后找准自己产品的定位。那么这块就需要良好的素质，既要利用自己掌握的信息形成产品设计，还需要有产品方案策划、文档撰写的能力。

Q8 请问产品设计的思路和方法有哪些，有点无从下手的感觉。

要成为一个合格的产品经理，比较好的是从产品经理助理做起，了解整个产品的全流程。所谓产品经理，其实就是产品设计。那么在产品设计之前呢，实际上有两种来源：第一种来源是由技术驱动的，比如说有一个新的技术，大家会去想，这个技术可以用到哪里。还有一种是由应用驱动的，就是我可能需要一个什么样的产品，大家再去想解决的方案。在人脸识别领域，目前是一个双向的过程，在很多年前，大家就想用人脸识别来解决问题，但是当时人脸识别解决不了，那么现在呢，人脸识别达到了可以解决问题水平，大家就开始从人脸识别的角度去设计场景，再去设计产品。

Q9 云从在技术上面临哪些挑战？

云层在技术上面临的挑战非常多。首先，虽然现在大家在新闻中看到识别率可以达到99%，但是这些都是在数据集上实现的。在实际应用中，人脸识别还有很多坑。同时呢，云从所面临的挑战，还有怎样将算法和硬件更好结合。云从的算法比较领先，那我们要怎样做出软硬一体的、更高效的、更可靠的产品呢？这是我们目前面临的挑战，更是我们在努力做的事情。

Q10 在云从，产品岗主要做什么工作？

请见下表的详细介绍。

Q11 曾丹老师建议工作之后，除了完成手上的项目（了解到科技公司基本都要加班），每天还应该花多少时间来学习新技术和理论知识？

当你进入一个好的公司，或者这个工作比较适合你的时候，它的一个很重要的特点就是，你做的这个项目一定不能是你信手拈来就能搞定的事情。如果你做的是重复性的工作，对你来说这个工作太容易的话，我觉得你可以应该考虑到换一份工作了。好的工作一定是不断学习和不断工作同时进行，在大家比较年轻的时候，你可能每天花1-2小时学习新技术、新理论；当你年龄越来越大的时候，你可能更需要学习一些其他的知识，比如说管理知识。但是始终你要保证每天有一两个小时用来接触新东西。

Q12 对刚毕业的学生，进入机器视觉领域的职业发展路线有什么建议？

刚毕业的学生，其实要看你原来的基础如何。如果你原来学的是机器视觉相关，你可以尝试去找一份机器视觉领域的研究工作，比方说研究院、或者研究算法方面的工作。但是一旦你选择的工作和这不相关的话，以后想要回头是非常难的，因为企业都要求你能够马上上手干活，所以不会给你留太多的时间，让你再继续跟进，这就需要非常强的毅力。

Q13 如何正确看待神经网络与深度学习的前景？

现在大家看来，好像深度学习是无敌的,远远超过了比如SVM等传统的模式识别方法。但实际上科学都是螺旋式前进的，回想一下深度学习没有出来之前呢？神经网络实际上是被冷掉了十几年，直到深度学习出现才开始爆发式地增长。那么可能，深度学习在未来的若干年内，还会是最主流最火的方向，但总有一天会有一些其他的路径方法代替它。因为深度学习它不是精确解，所以我不觉得深度学习是模式识别的终点，我觉得他是其中发展的一个阶段。

Q14 学习视觉，是否需要更好的掌握硬件嵌入式？算法研究如果自学有没有比较好的方法？

我觉得硬件嵌入式和算法研究这两块，大家如果是刚入行的话，建议先暂时只选一个方向。即便是像云从这样的公司，我们对于硬件实现和算法研究，依然是分成两个组，因为要把每一块做得很专很精都是不容易的，所以大家可以有针对性的选其中一个方向。现在这几大公司，比如说我们云从，就是算法实践比较擅长，但我们的硬件其实是一个短板，我们还在努力地补它。所以呢，如果是掌握硬件知识，又对算法有所了解的话，这样的人才在这个领域会非常受欢迎。我们也非常欢迎做硬件的同学来云从实习。但是对于没有基础的同学，建议先只选其中一个方向。

Q15 像云丛这样机器视觉和人脸识别相关的公司，在做算法工程师岗位的招聘时，所注重的人才素质是怎么样的？更重视论文还是工程实现能力？

这个要分开来看，我们在招聘的时候，首先会看你的论文，因为如果能在顶级会议上发表论文，那么代表你的研究基础肯定是好的。

工程实现能力也是考量的一个方面，但不会是最重要的。论文不代表你的科研能力，我们会有专业的面试团队，去了解大家对于算法的理解是否够深入，另外数学方面的能力我们也比较看重。我们算法组也分各种层次，既欢迎顶级大牛，也欢迎基础好、有热情，对机器视觉领域非常热爱的同学。

TIPS