人工智能中人的作用是否更大?
2471
在9月29日给同济大学管理科学与工程硕士班同学上课中同学们得提问题涉及到了很多有意思的话题,因此撰文对其中几个问题进行回答,也共同分享,上次谈到智能制造是一个技术变革还是一个管理变革,但是,发现远不止于此,包括制度、技术、管理、组织、生态等都是需要变革的。此次简要谈谈其中一个同学问到的“人工智能应用中,是否人发挥的作用更大?”。
就以目前经常谈到的机器学习(machinelearning)来说吧!在之前谈到的人工智能发展的连接主义,符号主义,行为主义几个学派许久的研究尝试之后,还是让机器回到“学习”这个人类基本的思维形成过程,当然,机器学习目前与统计学,数据挖掘等还有大量重叠部分,但也有在监督学习方面有一些发展的区别,并且本文对于规则和数据两种不同的机器学习方向也不做讨论,仅就机器学习本身的通用过程来分析其中人的作用即可。
机器学习的整个过程可以分为数据收集、预处理、降维、建模、测试,整个过程中,人都会扮演非常重要的角色。
图-机器学习的通用过程描述来自智慧的疆界】
将工业问题变为一个数学问题就是难题
就像对于任何的软件开发和 自动化 工程项目一样,把需求搞清楚都是困难的事情,把用户的需求和自身的系统之间进行有效的匹配,或者将实验室的设计到实现可执行的经济性制造过程本身在很多行业就是非常困难的,也是制造业整个的难点和核心问题,如果理解了这个问题,相信对于机器学习也就不难理解了,在第一个阶段,你先把现实世界的问题提炼为一个机器学习的问题,就需要你对问题有很深的认知,做控制工程的人都清楚,如果问题能够被数学描述,建模,那么编程反倒是件简单的事情,机器学习的道理也并未超越这个局面,因此,如何将行业的问题转化为一个机器学习的问题本身就是一个挑战。
首先是工艺必须懂,注塑机是怎么打一个产品的,印刷机又是怎么印刷确保套色准确的,锅炉的进风量和煤炭的输送链条和输入量的关系等等,而且还有扰动因素有哪些....非常多的问题,往往难题在于做机器学习的人不懂工艺,而懂工艺的人不懂机器学习,所以,跨界融合创新的难点就发生在这个第一步了。
数据清洗与特征选择
数据采集又会是一个问题,不同的控制器,不同的总线,数据的定义、单位、格式等都会有很多偏差,这个方面也需要规范与标准化,不能来了很多没有用的数据,或者残缺的不能满足一个完整的描述工艺的数据集,而且数据也要,确保数据正确的过程是一个“清洗”过程,而数据的是合适的部分则是特征选择的问题。
这个过程本身包括数据的集成、清洗操作、分层采样、数据分配、规范化、平滑化等操作,而这些操作,并非是由机器来完成,而是要由人来完成。
其中的特征选择关乎整个机器学习的质量,过多的特征会让数据维度过高,而造成数据稀疏,这又会造成难以获得相似性的回归,而且很多时候工业里维度提高了却没有足够的数据来训练,而有大量数据训练又可能会出现数据无关性,比如与质量无关的数据用于训练,那么也训练不出高品质的模型。
人工智能是人与机器的协作
而如何对数据进行特征选择,平衡特征值与数据量的关系,以获得最佳的学习质量,本身就要依赖于机器学习专家和工艺专家对这些问题的权衡。这些都依赖于人的智慧、经验和产业积累。
因此,在整个机器学习的训练中,数据预处理阶段占据了整个机器学习项目超过50%甚至更多的时间,正如圈里的话所说“数据和特征决定了机器学习训练全过程的上限,而模型和算法只是逼近这个上限而已”。
对于机器学习后续的建模、训练中的难点我们暂且不谈,而只是为了这个开始阶段,我们就可以看到,人在其中的作用仍然是巨大的,至少今天的AI还没有能够达到自主选择特征值、自己处理数据等智能性。
因此,可以说,人工智能是人的知识、经验与机器的存储、计算能力的融合,共同解决生产中的实际问题,因此,这里的评价应该是人与机器各自发挥各自的优势,但是,的确如果没有人的前期处理,特征选择与提取,就无法实现一个高质量的人工智能应用,不管是机器学习,还是深度学习,其实,前期这个工作都是由人的智慧来发挥关键作用的,至少当前的状态是如此。