人工智能的浪潮在2023上半年席卷全球,各种媒体频繁报道相关的新闻,各种 AI 工具层出不穷。但是我似乎对 AI 本身缺少一个更加系统的认识,熟悉一些概念,但是对这些概念之间的联系并不甚了解,我迫切的想弄明白人工智能热闹的背后是什么?这些热闹能持续下去吗?这些想法和好奇促成了我阅读这本书的理由。
先说说阅读这本书的感受。
这本书并不涉及艰深晦涩的数学原理,作者从 AI 的发展开始讲起,介绍了不同的人工智能学习的流派,然后将重点关注到了现在促成人工智能领域发展的深度学习领域,在书的末尾,作者也指出了人工智能领域当下面临的困境,我们距离通用人工智能的目标似乎还很遥远。
尽管书上的内容并不涉及非常底层的数学知识,但并不是说这本书非常好读,作者介绍了当下最热门的几个机器学习背后的原理,能感觉到作者已经尝试用通俗的语言去描述了,但是我还是看的一知半解。
# Part1
人工智能的发展是伴随着计算机的发展,到现在差不多也就半个多世纪的时间,人工智能刚开始的时候定义的很多领域依然是现代人工智能正在重点关注的领域。
人工智能有很多流派,有人支持数学逻辑作为理性思维的语言,有人支持程序从数据中提取特征,还有人则认为计算机应该模仿人脑,从生物学和心理学的角度找到灵感,进而实现人工智能。这些争论一直持续到现在。
我们需要理清楚的事深度学习并不等同于人工智能,正如上面所言,人工智能是个非常广的概念,它的目标是创造具有智能的机器,而深度学习只是实现人工智能的方法。深度学习本身又是机器学习这个领域下的一种方法。
这部分主要介绍了基础的感知机和多层神经网络的一些工作原理,随着一些关键的算法的提出来,机器学习开成为人工智能领域的独立分支学科。
但是机器学习只能完成一些定义好的领域比较狭小的任务,像是AlphaGo 只会下围棋,如果是下象棋,这个程序就无能为力了,这里也顺带引出了通用人工智能的概念。人工智能并不是真的理解它现在处理的信息,这一点书里反复提到。
就目前人工智能的技术发展来看,人工智能的发展是否存在奇点,这一点存在相当大的争议。尽管现在 ChatGPT 很火,也确实能解决一部分问题,但是我觉得这并不是通用人工智能的起点。
# Part2 视觉识别
卷积神经网络的启发来自于人眼识别系统,作者相对比较详细的介绍了通过卷积神经网络进行图像识别的原理,这里也涉及到特征学习的概念。
搞清楚深度神经网络和卷积神经网络的关系。
卷积神经网络(ConvNets)是深度神经网络中的一种,卷积是提取输入的内容进行特征学习,在不断训练中通过反向传播算法不断调整网络中神经元的权重和阈值,大量训练后形成一个稳定的权重阈值,这就是一个成熟的模型。
在图像识别领域的机器学习发展过程中面临的一个问题是,缺少大量标注的数据,是李飞飞解决了这个问题,她的团队产出了一组大量的标注过的基准数据集 ImageNet,用来对参加图像识别比赛的参赛者进行训练的。
2012 年的时候基于卷积神经网络的算法在图像识别大赛中表现很出色,识别正确率非常高,基于神经网络的的人工智能正式成为了主流的研究方向。
深度学习的崛起,很大一部分得益于互联网上的海量数据,以及计算机硬件的快速处理能力。
关于机器无法自助学习这个问题,我之前想的是为啥不用写个脚本什么的把数据爬下来喂给机器,转念一想给机器学习的数据都是需要进行人工标注的,所以没有办法直接给机器来学习。
关于调侃机器学习调参这件事儿,其实对神经网络调参是个很复杂的事儿,具体参数包括网络层数,感受野大小,学习率等等... 调节的好坏对神经网络能否良好运行非常关键... 所以我们不应该小看神经网络里调参这个事儿。
目前所有深度学习都是监督学习,并没有无监督学习的算法,无监督学习主要是在没有标记数据的情况下学习样本所属类别的方法。监督学习面临的最大问题是,不可能对世界上所有的事物都进行标注,然后把这些信息告诉计算机。
和人类学习不同,机器学习并不能解释它自己的决策过程,所以很多时候我们没有办法信任机器学习,就像人们没有办法彻底相信自动驾驶一样。
机器学习学到的内容很容易被攻击,找到一个点简单修改一下图像,就能让机器识别成一个完全不一样的东西,而且你不知道机器到底学了个啥,现在很热门的一个领域是对抗式学习,就是对抗机器学习的成果,算是机器学习领域的攻防战吧。
# Part3 游戏与推理
这部分主要是介绍强化学习的概念。
强化学习和监督学习是两种不同的机器学习方法。监督学习是需要输入特征和输出标签,而强化学习主要是根据环境对机器的反馈,主要是奖励,来确定机器的下一步行为。
强化学习需要一个模拟的环境(监督学习是需要标注后的数据),最终是通过模拟的环境的表现来决定在真实世界的表现。
强化学习和监督学习最终的应用场景不一样,监督学习更适合识别和分类,强化学习更适合连续学习和决策类的问题,比如机器人控制和游戏 AI。
强化学习也会用到神经网络「神经网络负责学习在一个给定状态下应给动作分配什么值。具体而言,神经网络将当前状态作为输入,其输出是智能体在当前状态下能够采取的所有可能动作的估计值」
神经网络只是工具,而强化学习和监督学习是不同的学习方式。
强化学习也只是在某个领域起作用,不管是强化学习方式还是深度学习,几乎没有一个人工智能既能干这个又能干那个的。事实上计算机并不知道自己在这个领域上「学」到了什么东西。
,算是机器学习领域的攻防战吧。
# Part4 自然语言
谷歌的自动翻译是需要进行训练的,图像转文字也是需要数据进行训练的,感觉现在用到的大量的人工智能的东西都是需要训练的。
翻译还是没有办法完全取代人类,在有的地方表现的好,有的地方表现的不好,最根本的问题是机器翻译没有办法彻底理解它要翻译的内容。
自然语言处理的一个目的就是问答机器人,就像是现在的 ChatGPT 一样,作者在这章节里举的例子是IBM 的沃森,作者认为沃森有点过度营销的意思。
关于机器是否会做阅读理解,这个和我之前发过的 ChatPDF 很类似,基本上那也是给定一段文本,然后问机器一个相关的问题,看是否能得到正确的答案。这些问答类的机器,也是经过专门的数据集进行训练过的。
自然语言也同样面临样本攻击的风险,事实上只要机器并不是完全理解它所处理的信息,它就可能被对抗样本攻击。
# Part5 常识
这部分内容主要是介绍人脑是如何去构建世界模型的,介绍了人类理解世界和抽象概念的方式。
人工智能想要长效的发展,变的更加通用的话,就要像人类一样去理解世界。
这部分的内容最后基本上衔接到了《千脑智能》这本书的里的内容。构建通用人工智能的任务可能还是最终需要搞明白人脑是如何运作的,然后通过模拟人脑的方式实现。现在深度神经网络可能已经发展到尽头了?
# 最后
我觉得人工智能和人类在一些认知方面还是很类似的,比如学习的迁移能力,人工智能在某个领域学到的东西没有办法迁移到别的领域,我们说它并没有真的「理解」这个东西,但是对于人来说,如果不能学一反三,触类旁通,那其实也可以说是没有真的理解某件事。这个认知特点,人和机器没什么区别。
当我们说我真的理解了某件事的时候,我们会说,「哦,我知道了」,然后伴随一个恍然大悟的表情,这个过程中发生了什么?我自己的理解是,他把新学到的东西和自己现有的知识体系结合在了一起,或者说是从他现有的知识体系里推断出、察觉出和新知识的关联。 上面这个我知道了的过程,如果再具体一点的话,可以用认路的方式形容。你对自己的街区里的路非常熟悉,当你走出这个街区,你会把新的路和自己已知的街区的方向和街道结合起来,当你从别的街道回来自己熟悉的街道,在从另一个角度看到自己熟悉的路的时候,你同样也会说,哦,原来到这儿了啊。这个过程和你认识新知识的过程其实是非常非常类似的。
《千脑智能》的作者发展人工智能的路子其实和深度学习并不一样,他的思路是上面提到的人工智能流派里的逆向人脑,然后造出和人类思维方式一样的智能机器。
关注我的微信公众号,我在上面会分享我的日常所思所想。