种一棵树最好的时间是十年前,其次是现在。

人工智能的历史

我们人类称自己为智人Homo sapiens),意指有智慧的现代人类,不仅与其它物种做了区分,也与其他非智人区分了开来,比如尼安德特人、丹尼索瓦人。除了生物学上有区别之外,我们具备复杂的语言能力,能够进行抽象思维和表达复杂概念,还会制作和使用复杂的工具。我们还拥有丰富的情感和艺术表达能力等等,这些都是其它物种或非智人不具备的。

几千年来,我们一直不断地研究我们的大脑是如何运作的,试图理解我们是如何思考和行动的,它是如何凭借那少量的物质去感知、理解、预测然后操纵一个远比它自身大得多复杂得多的世界。

人工智能(artificial intelligence,AI)的历史可以追溯到两千七百多年前,古希腊盲人诗人荷马在他的伟大著作《伊利亚特》中,活灵活现地描绘了火神赫菲斯托斯(Hephaestus)用黄金制成的女仆的故事,她们有感觉、有意识、有智慧、有声音、有力量,就像真的年轻女子一样。她们不仅精通制造技艺,可以帮忙锻造器物,还能说话,陪他聊天解闷。大约四百年后,古希腊哲学家亚里士多德在他的著作《政治学》中引述了这个黄金女仆的故事,他还深入地思考了黄金女仆如果真能实现所带来的社会影响,这意味着整个奴隶制度就可以废除了。

什么是人工智能

但究竟什么是人工智能,至今它也没有一个明确的定义。在历史上,不同的学者和研究者对人工智能有着不同的定义和观点,也因人工智能一直在快速发展,在不同时代,不同研究人员对它有着自己的定义。

1950年,艾伦·图灵(Alan Turing)在论文《计算机器与智能》中提出,如果一台机器在对话中的表现,如果无法区分是否真人,那么这台机器可以被认为具有智能。这便是图灵测试,图灵测试强调行为上的不可区分性作为智能的标志。

1956年,约翰·麦卡锡在达特茅斯会议上首次提出“人工智能”这一术语。他将人工智能定义为“使机器表现出被认为需要智能的行为的科学与工程”​。

马文·明斯基(Marvin Minsky)强调知识表示在人工智能中的重要性,即如何在机器中存储和处理知识从而模拟人类的认知过程。他认为 AI 的关键在于机器如何表示知识以及如何基于这些知识进行推理。明斯基强调知识的表示是AI的关键。

斯图尔特·罗素(Stuart Russell)和彼得·诺维格(Peter Norvig)在他们的著作《人工智能:一种现代方法》中,将人工智能定义为“设计和构建能够自主执行任务并实现目标的智能体的科学与工程”。这种定义强调了智能体能够感知其环境并采取行动来实现目标的能力。

人工智能诞生

现代人工智能要从电子计算机诞生开始说起。1940年代,可编程的计算机被发明之后,来自不同领域的一大批科学家开始严肃地探讨构造一个电子大脑的可能性,包括来自数学、心理学、工程学、经济学和政治学的领域。

人工智能的真正诞生是在1956年的达特茅斯会议,全称为达特矛斯夏季人工智能研究计划(Dartmouth Summer Research Project on Artificial Intelligence),组织会议的有四人,他们是约翰·麦卡锡、马文·闵斯基、纳撒尼尔·罗切斯特和克劳德·香农,会议大约持续了两个月, 40多位来自数学、逻辑学、心理学、工程学等领域的科学家先后参加了会议。会议以集思广益为主,探讨了众多议题,包括:

  • 自动计算机程序:研究如何编写能够解决复杂问题的计算机程序,特别是涉及数学和逻辑推理的问题。

  • 人工神经网络:探讨如何通过模拟人脑的神经网络来实现机器学习和智能行为。

  • 自动理论证明:讨论机器是否能够像人类一样进行逻辑推理,从而自动证明数学定理。

  • 博弈论与策略游戏:研究机器在棋类等策略游戏中的决策能力,希望通过此类研究提高机器的决策和学习能力。

  • 语言处理:探讨机器如何理解和生成自然语言,这涉及到自然语言处理(NLP)和机器翻译的早期研究。

  • 启发式搜索:研究如何通过启发式方法(heuristic methods)提高问题解决的效率,这是现代搜索算法的早期雏形。

尽管当时会议上的研究讨论并没有立即带来很大突破,但是它对人们后续人工智能的研究带来了深远的影响。麦卡锡在会议上提出首次“人工智能”这个术语,会议正式将人工智能作为一个独立的研究领域,并且确认了研究任务。当时提出的许多想法和思路,为后来人工智能研究提供了多种可能性和研究方向,例如符号主义、神经网络等,至今仍然是人工智能研究的重要理论基础。会议汇集了来自不同领域的科学家的交流,这也为人工智能后来在学术界跨学科研究奠定了基础。

达特茅斯会议之后的五十年代后期和六十年代,人工智能领域确实取得了初步成就,涌现了大批成功的 AI 程序和新的研究方向,不少领域出现了很有影响力的成果。它激发了后来许多著名的人工智能研究。达特茅斯会议被广泛认为是人工智能诞生的标志。

艾伦·纽厄尔和赫伯特·西蒙在1955年(达特茅斯会议还没开始)和1956年间编写的计算机程序“逻辑理论家”,它通过搜索式推理(search-based reasoning)来解决问题和进行推理,是首个可以自动进行推理的程序。罗素和他的老师怀特黑德所著《数学原理》前52个定理,它能证明38个,其中不乏既新颖又优雅的证明。“逻辑理论家”也被称为“史上首个人工智能程序”。

“逻辑理论家”开创性地使用启发式搜索技术来模拟人类的逻辑推理,它用到了搜索树,根是问题的假设,而后的每个分支都是推论。随着推论的进行,搜索树会呈指数级增长,为此,他们需要根据经验评估每个分支的价值,去掉那些不太可能推导出答案的分支,进而缩小了搜索范围,避免出现“指数爆炸”天文数字的可能线路这种情况。他们称这种方式为“启发式”。

在面对一些很复杂而且无法用精确算法处理的问题时,答案并不是唯一的,而且很可能有很多个答案。启发式方法基于经验,会尽快给出一个可接受的答案,即使这个答案未必是最佳的,适用那些需要快速决策的场景。“逻辑理论家” 引入的几个概念对人工智能研究至关重要,它使用的启发式搜索技术,影响了后来多种启发式算法,包括贪心算法、爬山算法、模拟退火、A*算法和遗传算法等。

1964年,麻省理工学院的博士生 Daniel G. Bobrow 为完成博士论文而开发的 STUDENT 程序,它可以处理并解决用自然语言表达的代数问题,这个程序需要处理三个关键问题,首先需要理解自然语言,要能够解析并理解用文字(英语)描述的代数问题;然后将描述语言转换成数学表达式或方程式;最后使用数学方法求解并且给出答案。

用自然语言描述:“如果小胖有三个苹果,再给他两个,他现在有多少个苹果?”,这个程序可以理解问题的文字描述,然后转化成数学表达式 $3 + 2 = 5$。还可以更复杂点:“小明的苹果是小红的两倍,他们总共有12个苹果,那么他们每人分别有多少个苹果?”,这个程序会将问题解析成两个方程:$M = 2H$,$M + H = 12$,然后对方程求解得出 $M$ 和 $H$ 的值,最后将答案输出给用户。

Daniel G. Bobrow 的 STUDENT 程序是自然语言处理(Nature Language Processing,NLP)和知识表示的早期典范,它展示了用计算机解决自然语言描述的代数问题的可能性,为后来 NLP 研究奠定了基础,

除此之外,还有许多领域的技术被开发出来。Edward Feigenbaum 和 Joshua Lederberg 等人在1965年至1970年间开发的用于化学分析的专家系统 DENDRAL,能够利用知识库和推理规则进行化学推理和分子结构预测,DENDRAL 被认为是第一个成功的专家系统,展示了AI在科学研究中的应用潜力,进而也推动了知识工程和专家系统的发展,

MYCIN 是由斯坦福大学1972年开发的医用专家系统,用于医学诊断和治疗推荐系统,它使用规则推理系统,根据患者症状和实验结果给出诊断和治疗建议,主要用于细菌感染和抗生素选择。MYCIN 向人们展示了专家系统在复杂决策中的作用,不仅推动了人工智能在医疗系统的发展,而且广泛引起了人们对专家系统的兴趣。

当时开发出来的程序堪称神奇,计算机不仅能够解决代数应用题、证明几何定理,还会学习和使用英语,放在几年前是根本无法想象的,大多数人难以相信机器能够如此“智能”。许多研究者在私下的交流和公开发表的论文中对人工智能都表达出相当乐观的情绪,他们甚至认为二十年内就会出现具有完全智能的机器。

与此同时,政府机构大批量的资金也投入了这一新兴领域。1963年6月,MIT 从 DARPA(国防高等研究计划局)获得了二百二十万美元经费用于AI研究,此后每年还会有三百万美元经费。DARPA 几乎是无条件提供经费,允许研究者去做任何自己感兴趣的方向。此外,卡内基梅隆大学、斯坦福大学AI项目以及爱丁堡大学的AI实验室都获得了 DARPA 的经费资助。在接下来的许多年间,这四个研究机构一直是 AI 学术界的研究中心,也是经费中心。这段时间可谓是人工智能的黄金年代。

第一次寒冬

然而好景不长,1974年至1980年,人工智能的研究经历了“寒冬”时期,被称为“AI寒冬”。研究者们不仅面临了技术上的许多挑战和困难,由于进展缓慢,达不到期望,政府在 AI 领域的资金资质也变得保守起来。

在60年代和70年代早期,AI 的研究确实取得了一些显著的成果,比如自然语言处理程序和专家系统的应用,从而带来了人们对 AI 的乐观情绪,而且拔高了人们对 AI 的期望。虽然有不少效果看似不错的 AI 系统被开发出来,在实验室环境中表现良好,但是面对现实环境复杂多变的问题时,效果却很差,也招致了很多批评。受限于当时的计算能力,无法处理大量数据,而且当时的 AI 算法在处理复杂问题时效率比较差,还难以扩展。像早期的启发式搜索和规则推理系统,在问题空间很大时或者搜索空间存在许多无效路径的时候,这些系统不知如何有效地搜索问题。现实世界是极其复杂的,这些用符号表示的系统难以表示和推理世界复杂的知识。随着知识的增加,它们表示知识的方式和推理规则会变得很复杂且难以理解,这不仅导致错误难以修复,想添加新知识也很困难。

种种原因,AI 的进展未达到预期,政府和其它机构对 AI 投资的热情逐渐减弱,进入 AI 研究领域的资金大幅减少。许多 AI 初创公司由于没能实现商业化应用,也无法吸引到足够的投资。

复苏

过去的几年资金短缺和技术瓶颈限制了 AI 的进展,研究者们转向了一种新的方法:专家系统,这类系统能够模拟人类专家的决策过程,为各种复杂问题提供解决方案。随着专家系统的崛起和成功的商业应用,进入1980年,人工智能领域再次燃起希望的火焰。

专家系统(Expert System,ES)是一种模拟人类专家在特定领域进行推理和决策的人工智能程序,通常针对特定领域开发。它由知识库、推理机和人机界面三个主要部分组成。知识库是专家系统的核心,它包含了特定领域的大量知识和经验,它可以是事实、规则或者案例。推理机是专家系统的灵魂,它负责从知识库中的知识进行推理和求解问题。推理机可以是多种形式,例如规则推理、模糊推理和神经网络推理。人机界面是我们最熟悉的部分,它是用户和专家系统交互的窗口,也就是程序的界面,用户在窗口中输入问题,然后查看推理过程和解决方案。

随着专家系统和AI技术的成熟,越来越多的商业应用开始涌现。医疗、金融、保险、银行和制造等行业开始采用AI系统来优化流程、提高效率和支持决策。例如,我们上面提到的 MYCIN 专家系统被用在医疗诊断上,它帮助医生选择适当的抗生素治疗细菌感染。

1981年,日本宣布了雄心勃勃的第五代计算机项目(Fifth Generation Computer Systems Project),希望通过大规模并行处理和逻辑编程技术,开发出更智能、更强大的计算机系统。这个项目吸引了世界各国的关注,也激发了其他国家的竞争意识。美国和欧洲纷纷启动类似的项目,进而推动了 AI 技术的进一步发展。

1983年,卡内基梅隆大学的研究人员开发了一个名为“AM”的程序,它能够自动发现数学定理。虽然 AM 还没达到完全自主发现的程度,但它展示了机器学习和自动发现的潜力。这个项目激发了对机器学习算法和技术的进一步研究,成为后来机器学习革命的早期催化剂。

1980年代初,计算机视觉和机器人学也取得了一些突破。研究者们开发了能够识别和解释视觉信息的算法,并将它应用在机器人导航和控制。斯坦福大学开发的“斯坦福手”项目,展示了一只机器人手臂如何通过视觉反馈抓取和操作物体,在当时是一个令人振奋的进步。

随着专家系统的成功应用、第五代计算机项目的推动以及机器学习和计算机视觉的早期突破。短短几年带来的成就,人工智能领域经历了从寒冬后的复苏到快速发展的转变。资金和重新涌入了 AI 研究领域,英国开始了打造 Alvey 工程,耗资三亿五千万英镑;美国一个企业协会组织微电子与计算机技术集团,向AI和信息技术的大规模项目提供资助;DARPA 在1988年向 AI 领域的投入的资金是1984年的三倍。

第二次寒冬

随着 Apple 和 IBM 生产的台式电脑性能不断提升,到1987年时性能已经超过了那些运行着专用程序的昂贵的 Lisp 机,这些专门运行 AI 的机器似一夜之间就过时了,AI 硬件市场在消失,被更通用的个人电脑取代了。

各种大获成功的专家系统的问题也逐渐暴露出来,它们非常难维护,不仅很难升级,而且很难使用,还特别脆弱,如果不小心输错了内容,它会出现莫名其妙的问题。随着市场对专家系统的失望,许多商业化的专家系统未能提供预期的效益,导致企业对 AI 技术失去了信心。

到了80年代晚期,DARPA 的新任领导认为 AI 并非“下一个浪潮”,并且大幅削减了对 AI 领域的资助,转而将资金投入其它更容易出成果的项目。1991年,随着日本第五代计算机项目的失败,对全球 AI 研究产生了消极的影响。至此,人工智能领域进入第二次寒冬。

第二次寒冬是 AI 发展史上的一个重要阶段,资金减少和项目失败对 AI 的发展造成了重大影响,再次走入死胡同之后,促使了研究者反思现有方法的局限性,进而探索新的研究方向,比如统计学和机器学习等。一些研究者开始探索新的算法和方法,如神经网络和概率图模型。这些研究方向,都为未来的 AI 复苏奠定了基础,这一时期的经验教训为后来的技术创新提供了宝贵的启示。

复苏

到了20世纪90年代中期,计算机硬件性能大幅提升,更快的 CPU 和更大的内存以及更低的存储成本,使大规模数据处理和复杂计算成为可能。分布式计算和并行计算技术的发展,也让更复杂的 AI 模型和算法得以实现。

IBM 在同时期开发了专门用于国际象棋比赛的超级计算机 Deep Blue,在1997年5月11日,Deep Blue 战胜了当时的国际象棋世界冠军俄罗斯国际象棋手加里·卡斯帕罗夫,成为世界上第一台战胜人类棋手的计算机。Deep Blue 使用了并行处理架构,秒可以评估大约2亿步棋,走出一步棋后,还可搜索估计接下来可能的12步棋,但是一名人类象棋好手最多只能够估计10步棋。Deep Blue 主要依靠固定的规则和搜索技术,依赖预先编程好的策略和搜索算法,使用预定义的评估函数和开局、残局数据库来做决策。Deep Blue 与卡斯帕罗夫的对决在当时吸引了公众和媒体的广泛关注,人工智能和计算机科学再度成为热门话题。Deep Blue 的胜利被视为人工智能领域的里程碑,激发了更多关于智能系统和机器学习的研究。

在这个时期,人工智能不仅在学术界取得了突破,而且在很多领域得到了应用。

比如在自然语言处理领域,1997年推出的语音识别软件 Dragon NaturallySpeaking,它能够将用户的语音转换输出为文字内容。Systran 算是早期的机器翻译系统了,尽管翻译质量较低,但在多语言环境中具有重要价值,可以在机器翻译之后再交由人工翻译从而提高效率,在企业和政府机构有着广泛的应用。还有 Richard Wallace 从1995年开始创建的聊天机器人 A.L.I.C.E.,能够和用户对话。

在计算机视觉领域,人脸识别和手写数字识别技术得到了很大发展。比如手写数字识别技术,在自动邮件分拣和银行支票处理系统中有着成熟的应用,这主要得益于支持向量机(SVM)和神经网络研究和发展。

在机器学习领域,Amazon 在1998年推出了基于协同过滤的推荐系统,为用户提供个性化商品推荐。这是机器学习在电子商务中的重要应用。银行和金融机构利用机器学习技术来检测和预防信用卡欺诈,它通过分析交易模式和行为数据,机器学习算法识别出异常活动。

在机器人和自动化领域也有长足的进步。就像 FANUC 公司开发的工业机器人,可以自动装配、焊接和搬运,在制造业中有着广泛的应用。还有一些自动屠宰牲畜的生产流水线,通过使用计算机视觉技术准确识别动物的身体部位。

这一时期基于机器学习的 AI 成就和应用还有很多,不胜枚举。

深度学习

到了二十一世纪第二个十年,移动互联网爆发,几乎每个人手上都有一台智能手机,用户产生的数据剧烈增长。基于摩尔定律的描述:计算速度和内存容量每两年翻一番,计算性能上的基础性障碍已被逐渐克服。大数据和计算力可以构建更复杂的机器学习——深度学习。

在十九世纪八十年代,深度学习相关的技术就已经提出来了,比如多层感知机(MLP)、反向传播算法(Backpropagation)等。但是受限于当时的计算能力和数据量,深度学习的应用相对有限。到了二十一世纪头十年,由于计算能力和数据量的增长,深度学习的潜力逐步显现了出来,Hinton 等人在深度信念网络和受限玻尔兹曼机上的研究突破,深度学习算法得到了改进,解决了一些关键的训练难题,奠定了深度学习复兴的基础。到了2011年之后,随着 GPU 计算的普及和大数据的涌现,深度学习在图像识别、语音识别、自然语言处理等领域取得了突破性进展。

2011年,深度学习迎来了转折点。这一年,斯坦福大学的研究团队在 ImageNet 图像识别比赛中使用卷积神经网络(CNN)深度学习技术取得了显著成绩。与此同时,Geoffrey Hinton 和他的学生们在语音识别领域利用深度神经网络(DNN)也取得了突破,显著提高了识别准确率。这些成功标志着深度学习开始从理论走向应用。

2012年,ImageNet 大赛再次成为焦点。Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 团队的 AlexNet 模型在比赛中大放异彩,击败了传统方法,错误率减少了近一半。AlexNet 使用深度卷积神经网络展示出来的强大能力,引起了学术界和工业界的广泛兴趣。随着 AlexNet 的成功,深度学习研究进入了快速扩展和优化期。

2013年,VGG 和 GoogleNet(Inception)等模型相继问世,进一步提高了图像识别的准确性。与此同时,深度学习的应用开始向自然语言处理(NLP)扩展。

2014年,Ian Goodfellow 提出了生成对抗网络(GAN),为生成模型开辟了新的方向。

2015年,深度学习全面爆发。这一年,何凯明团队提出的 ResNet(残差网络),极大地改善了深度神经网络的训练难题,ResNet 在 ImageNet 比赛中取得了前所未有的成绩。同年,谷歌的围棋程序 AlphaGo,利用深度强化学习战胜了人类围棋冠军李世乭。在此之前,围棋一直是机器学习领域的难题,AlphaGo 的成功是人工智能研究的一项标志性进展

2016年至2018年,深度学习在各个领域的应用不断深化。2016年,WaveNet 模型在语音合成方面取得突破,生成的语音质量接近人类水平。2017年,Transformer 架构被提出,革命性地改变了 NLP 领域。基于 Transformer 的 BERT 模型在2018年问世,显著提升了多项 NLP 任务的性能。深度学习在医疗、金融、自动驾驶等领域的应用也开始逐渐成熟。

2019年,OpenAI 推出了GPT-2,这个模型的语言生成能力相当惊人,它展现了大规模预训练模型的威力。2020年,GPT-3 问世,参数规模达到了1750亿,再次刷新了人们对语言模型的认知。大模型的出现,使得深度学习在生成任务和语言理解任务上达到了前所未有的高度。

进入2021年,深度学习继续快速发展。人工智能和深度学习技术开始渗透到更多的实际应用中,如个性化推荐系统、智能家居、智能医疗等。AI 伦理和解释性 AI 的研究也逐渐受到重视,为的是确保深度学习技术的透明性和安全性。同时,深度学习模型的高能耗问题也推动了研究人员探索更加高效的算法和硬件加速器。

展望未来,随着技术的不断进步和应用的深入,深度学习会在更多领域发挥作用,为人类社会带来更多创新和变革。

版权声明: 本文为原创内容,未经许可,不得转载。