在荷马的史诗巨作《奥德赛》中,独眼伟人赛库斯·波吕斐摩斯将奥德修斯和他的船员困在他的洞穴里,企图将他们吃掉。但奥德修斯设法弄瞎了伟人的眼睛并胜利逃脱。 人工智能不会吃掉我们。 文 | Craig S. Smith 随着我们飞快地迈向一个充溢人工智能的未来,科技巨头、研讨人员和投资者似乎都在猖獗地力争上游地开发最先进的人工智能技术。 许多人开端质疑:这能否停顿得过快,能否思索到了风险呢?就此问题笔者 (克雷格·史密斯,《纽约时报》的前记者)与 OpenAI分离开创人和首席科学家Ilya SutskeverIlya中止了讨论。 Ilya Sutskever是OpenAI的分离开创人和首席科学家,也是大型言语模型GPT-4以及其公开后代ChatGPT的主要担任人之一。说他正在改动世界并不夸大。这不是Ilya第一次改动世界了。他曾是AlexNet的主要推进者,这种卷积神经网络以其惊人的性能在2012年震惊了科学界,并引发了深度学习的反动。 在笔者看来,AI展开这个问题并非完整无关紧要。有数百位敏锐的专家正在思索着这种反乌托邦的各种可能性——以及避免它们的措施。但事实上,未来是未知的,这种强大新技术所带来的影响,就好像互联网刚呈现一样难以想象。它将同时带来利与弊,它不能被阻止,但能够被了解。
OpenAI是一个非盈利的人工智能研讨机构,它的衍生公司可能会成为全球最赚钱的实体之一。笔者与Ilya的交谈是在OpenAI最新版本的巨型人工智能系统GPT-4发布之前中止的,该系统曾经摄入了数十亿字的文本——这比任何一个人终身中可能阅读的文本都要多。 GPT是“生成式预锻炼转换器”( Generative Pre-trained Transformer)的缩写,这三个词关于了解这个像荷马史诗中的波吕斐摩斯般的AI伟人十分重要。转换器是这个巨型系统中心算法的称号。预锻炼指的是该庞然大物接受了大量的文本语料的教育,从而使其能够了解言语的基本方式和关系——简而言之,教会它了解世界。生成式意味着AI能够在这个学问基础上发明出新的想法。 人工智能曾经占领了我们的生活,但行将到来的将是更为先进、更为强大的技术。 我们正在进入未知的范畴,这值得我们花一些时间来思索它意味着什么。但留意不要反响过度,不要像乌龟一样规避往常映照在我们身上的明亮太阳。 人工智能不会吃掉我们。 为保障文本明晰衔接,以下内容经过编辑整理。 Craig S. Smith: Ilya,我知道你出生在俄罗斯,是什么让你对计算机科学、神经科学或者相似的方向产生了兴味? Ilya Sutskever: 的确,我出生在俄罗斯,我在以色列长大,在青少年时期,我和家人一同移民到了加拿大。我的父母说我从小就对人工智能很感兴味。我也遭到了很大的觉知驱动。曾经这让我十分搅扰,因而我对能辅佐我更好了解它的事物充溢了猎奇。 我很早就开端与 Geoff Hinton[深度学习的开创人之一,时任多伦多大学的教授;深度学习是GPT-4 背地的AI种类 ]协作,当时我才17岁。由于我们搬到了加拿大,我立刻就入读了多伦多大学。那时我十分想研讨机器学习,由于这似乎是人工智能最重要的方面,而在当时这是完整不可触及的。 那是2003年。往常我们会理所当然地以为计算机是能够学习的,但在那时我们默许的是计算机无法学习。那时人工智能范畴的最大成就是IBM研发的象棋引擎“深蓝”(Deep Blue)(它在1997年击败了象棋世界冠军 Garry Kasparov)。 但在当时,有这么一个游戏,也有这么一项研讨,还有这种简单的措施来肯定一个(象棋)走法能否比另一个更好。当时我们真的觉得这不可能适用于理想世界,由于当中没有触及到学习。学习是一个很大的谜,而我对(机器)学习真的十分十分感兴味。侥幸的是,Geoff Hinton是这所大学的教授,我们简直立刻就开端了协作。 那么智能究竟是如何工作的?我们如何使计算机稍微具有智能呢?我有一个十分明白的企图,那就是为AI做出十分小但真实的贡献。因而,对我来说,一大初衷就是我能否了解智能是如何工作的,以及如何为之做出贡献?那就是我最初的动机。而那简直是20年前的事了。 简而言之,我认识到,假如你运用一个足够大的数据集来锻炼一个大而深的神经网络,使之能够完成一些人类能够完成复杂任务,好比视觉任务,那么你必定会取得胜利。这个想法的逻辑是不可简化的,由于我们知道人类大脑能够快速地处置这些任务,而人脑实质上就是一个由慢神经元构成的神经网络。 所以,我们只需求运用一个更小但与之相似的神经网络,并运用数据对其中止锻炼。然后,计算机内部最好的神经网将与我们的大脑中执行这个任务的神经网络十分相似。 Craig S. Smith: 2017年,《Attention Is All You Need》这篇论文出炉,初次提出了自留意力和转换器的概念。那么GPT项目是从什么时分开端的?当时你们关于转换器能否存在某种直觉? Ilya Sutskever: 就背景而言,从OpenAI的最早时期开端,我们就不时在探求一个想法:(机器学习)只需求能够预测下一个事物。当时,我们用的是更为有限的神经网络,但我们想的是,假如有一个神经网络能够预测下一个单词,它就能处置无监视学习问题。因而,在GPT降生之前,无监视学习被以为是机器学习的圣杯。 往常,这个问题曾经完整处置了,以至没有人再谈论它,但它曾经是一个“圣杯”。它曾是一个十分神秘的问题,因而我们不时在探求这个想法。我当时对此真的十分兴奋,以为只需(机器学习)能够足够好地预测到下一个单词,它就能完成无监视学习。 但我们那时的(电脑)神经网络并不能胜任这个任务。我们运用的是递归神经网络。当转换器的概念问世后,那篇论文一出来,真的是就在它出来的第二天,我们立刻认识到转换器处置了递归神经网络的局限性,处置了学习长期依赖性的问题。 这是一个技术问题。但我们立刻就改用了转换器。于是,我们在开发GPT十分初步的阶段就运用了转换器。后来它的表示越来越好,我们也让它的功用越来越强大。 这就最终招致了GPT-3和我们今天的状况。 Craig S. Smith: 现有的大型言语模型的局限性在于,它们所具有的学问仅限于锻炼它们所运用的言语范围内。但我想我们每个人都同意,大多数人类学问是在言语之外的。 它们的目的是满足提示的统计分歧性,它们并没有对言语所触及到的理想状况有基本的了解。我问过ChatGPT 关于我自己的信息,它认识到我是一名记者,曾在多家报纸工作,但它说了很多我从未取得的奖项。那听上去很棒,但与基本理想简直是脱节的。在你们的未来研讨中,能否有处置这个问题的计划? Ilya Sutskever: 有多大的可能性今天我们看到的这些局限在两年内依然存在? 对此我坚持达观。 关于这个问题的一个部分,即“这些模型只是学习统计规律性,因而它们并不真正知道世界的实质是什么”,我还想说一个我自己的见地。 我的见地与此不同。换句话说,我以为学习统计规律比我们想象的更重要。 预测也是一种统计现象。但是,为了中止预测,你需求了解产生数据的基本过程。你需求对产生数据的世界有越来越多的了解。 我以为随着我们的生成式模型变得异常优秀,它们将具有我所说的对世界和其许多奇妙之处的惊人水平的了解。它是经过文本的角度来看待世界的。它试图经过人类在互联网上所表白的文本空间上的世界投影来更多天文解世界。 但是这些文本曾经表白了这个世界。我给你举个最近的例子,我以为这很有意义。我们都听说过 Sydney是ChatGPT的第二自我。当用户通知 Sydney 他以为谷歌是比必应更好的搜索引擎时,Sydney 就会变得有点好斗和具有攻击性。 如何了解这种现象?它是什么意义?你能够说,这是由于它只是预测了人们会做什么,而人类就是会这样做。这没错,但或许我们往常正在抵达一个点,即心理学的言语开端被挪用来了解这些神经网络的行为。 往常让我们再来谈谈局限性。的确,这些神经网络有产生幻觉的倾向。这是由于言语模型十分合适学习有关世界的学问,但不太合适产生好的输出。这其中有各种各样的技术缘由。言语模型更擅长学习关于世界、想法、概念、人物、过程的令人难以置信的表征,但它的输出并不像人们希望的那样好,或者说不如它们本应该的那样好。 因而,例如关于像ChatGPT这样的系统,它是一个言语模型,具有额外的强化学习锻炼过程。我们称之为人类反响强化学习。 能够说,在预锻炼过程中,我们想(让它)学习的是关于这个世界的一切。但经过人类反响的强化学习,我们关怀的是它的输出。我们会通知它,假如它在任何时分做出了分歧时宜的输出,那么以后就不要再做了。假如它在任何时分做出了没有意义的输出,以后也不要再做了。 这样一来,它很快就学会了产生好的输出。但是输出的水平在言语模型预锻炼过程中并不是这样的。 至于产生幻觉这个问题,它有时分有捏造内容的倾向,这也极大地限制了它们的适用性。但是我以为我们很有希望经过简单地改进这个从人类反响中强化学习的步骤,教会它不产生幻觉。往常你可能会问说它真的会学习吗?我的回答是,让我们拭目以待。 我们目前的做法是雇人来教我们的神经网络如何表示,教ChatGPT如何表示。你只需与它互动,它就会从你的反响中推断出:“哦,这不是你想要的。你对它的输出不称心。因而这一次的输出不好,下一次应该做些不同的事情。” 我以为这种措施有相当大的机遇能够完整处置幻觉问题。 Craig S. Smith: Yann LeCun(Facebook首席人工智能科学家和深度学习的另一位早期先驱)以为,大型言语模型所短少的是这种底层的世界模型,它是非言语的,而言语模型能够参考。我想听听你对此的见地,以及你能否曾经探求过这一范畴。 Ilya Sutskever: 我回想了Yann LeCun的主张,其中有一些想法,它们用不同的言语表白,与目前的范式或许有一些小的差别,但在我看来,这些差别并不十分显著。 第一个主张是,一个系统最好能有多模态的了解,它不只是从文本中了解世界。我对此的评论是,多模态了解的确是可取的,由于你能够了解更多的世界,你能够了解更多的人,你能够了解他们的状况,所以系统将能够更好天文解它应该处置的任务,以及人们和他们想要什么。 我们在这方面曾经做了相当多的工作,其中最值得一提的是我们完成的两个重要神经网络,一个叫做Clip,一个叫做Dall-E。它们都在朝着这个多模态的方向展开。但我也想说,我不以为这是非此即彼的状况,假如你没有视觉,假如你不能从视频或图像中了解世界,那么事情就不会顺利中止。 而我想为这一点做个阐明。我以为有些东西从图像和图表等方面更容易学习,但我也以为,你依旧能够只从文字中学习,只是速度更慢。我给你举个例子:思索一下颜色的概念。 毫无疑问,我们无法仅从文本中学习颜色的概念,但是当你看到嵌入——我需求做一个小小的转机来解释“嵌入”的概念。每个神经网络经过“嵌入”表示法,即高维向量,来代表单词、句子和概念。 我们能够看一下这些高维向量,看看什么与什么相似,以及网络是如何看待这个概念或那个概念的?因而,只需求查看颜色的嵌入向量,机器就会知道紫色比红色更接近蓝色,以及红色比紫色更接近橙色。它只是经过文本就能知道一切这些东西。这是怎样做到的呢? 假如你具有视觉,颜色之间的差别就会立刻显现出来,你能立刻感知到它们。但是经过文原本感知,你需求更长的时间;或许你知道如何说话,你曾经了解了句法、单词和语法,但是要在很久之后你才真正开端了解颜色。 因而,这就是我对多模态性的必要性的见地:我以为它并非必须,但绝对是有用的。我以为这是一个值得追求的好方向。我只是不以为应该将它们分得如此明白。 LeCun在论文中提出的主张宣称,其中一个主要应战是预测具有不肯定性的高维向量。但有一点让我觉得很诧异,或者至少在那篇论文中没有得到招认,那就是目前的自回归转换器曾经具备了这种特性。 我给你举两个例子。一个是关于给定一本书中恣意的一页,预测其下一页的内容。下一页有十分多的可能性。这是一个十分复杂的高维空间,而它们能够很好地处置它。同样的状况也适用于图像。这些自回归转换器在图像上也运作得十分圆满。 例如,像OpenAI一样,我们对iGPT也中止了测试。我们只需取一个转换器,并将其应用于像素,它就能够十分好地运作,并能够以十分复杂和奇妙的方式生成图像。在Dall-E 1上也是同样的状况。 所以,我以为那篇论文中对当前措施无法处置高维散布的评论过于绝对了——我以为它们绝对能够。 Craig S. Smith: 关于有一支人类培训师队伍与ChatGPT或一个大型言语模型一同工作,用强化学习来指导它的想法,只是凭直觉,这听起来不像是一个教模型了解其言语的基本理想的有效措施。 Ilya Sutskever: 我不同意这个问题的措辞。我以为我们的预锻炼模型曾经知道了它们需求了解的关于基础理想的一切。它们曾经具备了有关言语的学问以及有关产生这种言语的世界进程的大量学问。 大型生成模型对其数据——在这种状况下是大型言语模型——所学习的东西是对产生这些数据的理想世界过程的紧缩表示,这不只意味着人和他们的思想,他们的感受的一些内容,还有关于人所处的状况以及他们之间存在的相互作用的一些内容。人能够处于不同的情境中。一切这些都是由神经网络表示的被紧缩的过程的一部分,用以产生文本。言语模型越好,生成模型越好,保真度越高,它就越能捕获到这个过程。 往常,正如你所说,这些教员队伍实践上也在运用人工智能辅助工具。这些教员并不是独立行动的,他们正在运用我们的工具,而这些工具正在做着大部分的工作。但是我们的确需求有监视,需求有人来检查这个过程,由于最终我们希望完成十分高的牢靠性。 我们的确有很多动力来使它尽可能高效、精确,这样产生的言语模型就会尽可能的表示良好。 所以,是的,有这些人类教员在向模型教授它们的理想行为。而他们运用人工智能系统的方式不时增加,因而他们自己的效率也在不时进步。这和教育过程没什么两样,那就是让教育对象知道如何在这个世界上表示得好。 我们需求中止额外的锻炼,以确保模型知道编造内容永远都是不行的。而这种强化学习的人类教员或其他变体将教会它这些。 这样的做法应该是有效的。我们很快就会知道。 Craig S. Smith: 这些研讨最终将通往何处?它们是你最近在做的研讨吗? Ilya Sutskever: 我不能细致讲述我正在从事的细致研讨,但我能够大致提及一些研讨方向。我十分关注如何让这些模型更牢靠、更可控,让它们能够更快地从示例数据中学习,减少指导。以及如何让它们不要产生幻觉。 Craig S. Smith: 我听说你曾经说过我们需求更快的处置器才干进一步扩展。似乎模型的扩展没有止境,但锻炼这些模型所需的功率,我们曾经抵达了极限,至少是社会公认的极限。 Ilya Sutskever: 我不记得你所说的我做过的确切评论是什么,但人们总是希望有更快的处置器。当然,功率总是会不时增加。总的来说,成本也在上升。 但我关注的问题不是成本能否很高,而是我们在支付这笔成本时能否能得到超越成本的东西。或许你支付了一切这些成本,却什么都没有得到,那就不值得。但是,假如你得到了十分有用的、十分有价值的东西,能够处置我们想要处置的许多问题,那么它的成本就能够是完整合理的。 Craig S. Smith: 有一次我看到你谈到了民主以及AI关于民主的影响。有人曾向我谈论过这样一种状况,即当看似无法处置的抵触呈现时,假如你有足够的数据和一个足够大的模型,你能够用数据来锻炼模型,从而得出一种最优解,使一切人都能称心。你能否思索过这种技术可能辅佐人类管理社会的方向? Ilya Sutskever: 这是一个十分大的问题,而且是一个更具未来性的问题。我以为我们的模型仍有许多方面能够变得比往常更为强大。 政府未来能否会将这项技术当作倡议来源其实是不可预测的。关于民主的问题,我以为未来可能会发作的一件事是,由于神经网络将如此提高且对社会产生如此大的影响,我们将发现有必要经过某种民主过程,让一个国度的公民提供一些关于他们希望社会变成什么样的信息给神经网络。我能够想象这种状况的发作。这可能是一种十分高带宽的民主方式,你能够从每个公民那里获取更多的信息并中止汇总,从而指定我们希望这种系统如何行动。往常这就引出了许多问题,但这是未来可能发作的一件事。 剖析一切变量意味着什么?最终你需求做出选择,而这些变量似乎变得十分重要。我想在这方面研讨地更深化一些。由于我能够很快地读一百本书,也能够很慢很认真地读一本书,从中取得更多收获。所以,其中会有一些值得考量的元素。此外,我以为在某种意义上,从基本上说,要了解一切的事物可能是不可能的。让我们来看一些更简单的例子。 任何时分,只需触及到复杂的社会情境,例如在一家公司,即便只是一家中等范围的公司,它都曾经超出了任何单个人的了解才干。我以为只需我们以正确的方式构建我们的AI系统,AI简直任何状况下都会对人类有令人难以置信的辅佐。■ 本文译自 https://www.forbes.com/sites/craigsmith/2023/03/15/gpt-4-creator-ilya-sutskever-on-ai-hallucinations-and-ai-democracy/?sh=18e30c701218 本文作者为福布斯撰稿人,曾任《纽约时报》记者兼高管,文章内容仅代表作者自己观念。 福布斯中国独家稿件,未经答应,请勿转载 头图来源:Google
他 精彩资讯永不错过 ▽ |