AI 领域的巨变是一个契机,让各界在这股浪潮中判断自己的初心和优势在何处,未来走向何方。
今天我们分享与哥伦比亚大学计算机系助理教授、AI 华人青年学者、福布斯 “30U30”科学家,Articulate.AI 创始人俞舟教授的对谈,Enjoy
绿洲:开源模型对大家的冲击感如何?
俞教授: 可以说在各个领域都很火热。比如教育界,最近有很多公司想做 AIGC 教育。各个传统行业都在看 AIGC 可以有哪些应用。譬如我们公司最近就在探索企业培训。
绿洲:美国教育界小到 K12,大到大学教育,您怎么看因为技术改变产生的变化?
俞教授: 对教育界而言肯定是一个机遇。怎么用 AI 帮老师做课件,帮同学答疑训练;当然同时也会产生一定的顾虑,学生有了 AI 工具是否会只用工具交作业,不好好学习了。
绿洲:LLM “胡说八道” 的问题,在教育界应用是否会遇到更大的挑战?
俞教授: 是的。尤其是 LLM 用到高风险行业,输出的内容是否可控会很重要,K12 等都不希望误导孩子。当前大家都集中在 STEM 教育领域,比如逻辑、数学、物理,里面不涉及观念(opinions),只是事实和逻辑而已,这些我觉得问题不大。从“事实”的角度而言,各种模型都用过一些方法去调整,但也不能说是完全正确的。主要看你做的领域的约束性,如果领域小,可控性就强,比如计算错误你可以使用计算器等 API 来解决,或者是典型领域的纠错。如果你的领域比较宽泛,连课后答疑等内容都包含了,那你就光试错就已经精疲力竭,还要做人类反馈强化学习(RLHF) 才能改进模型。所以刚开始落地应用的时候,还是建议从更专的领域切入,比如中小学数学和物理,会友好一些。
绿洲:人们对职业技能的提高或者重新培训需求有变化么?
俞教授: 可以说是越来越大。大家都会评估我目前的工作是否适合自己,特别是在美国,之前有一波离职潮,大家可以居家办公,可以领失业金。拿着失业金待在家里,让你有足够的时间思考职业规划。很多人在这段时间改变了行业,或者去报课程学习,比如 UI 设计,编程等等。
所以说提升员工技能(worker upskilling)的市场越来越大,Coursera 或者 Udemy 在疫情期间也有很大增长。中国我觉得肯定也存在需求,但主要中国最后不像美国最后形成了远程办公,所以并没有太长的时间可以思考事业目标,而且中国大部分人的需求还是赚钱养家还房贷,这几座大山压着也难很花时间来思考转行和提升自己。美国大部分的员工还是比较偏个人主义,每个人都有自己的想法,和公司的雇佣关系也稍有不同,员工认为和公司的雇佣是合作关系,不满意这个公司我换工作就行了。反之对公司而言,尤其在疫情期间,要留住自己的员 工,就要提供相应的福利,增加员工培训的预算,做职业发展规划,不然员工也会离开。
绿洲:在医疗和教育上,LLM 在中美产生的影响有何区别?
俞教授: 不同的利益驱动导致不同的选择。从 Sam Altman 的角度来讲,就是要“改变世界,要创造积极的影响”。如何将积极的影响最大化,医疗和教育就是通道。
医疗和教育最需要的是“积极的影响”。不仅是中美,全球都一样。一个新的技术开始,总是从最容易接受这些技术的人,从更商业化的行业开始的,最后才会影响到不容易被商业化的教育和医疗领域。教育通常而言都比较滞后,因为钱少,规则多。当然医疗在美国很市场化,所以会有一些差异,但绝大部分国家都大同小异。只不过因为湾区价值观的差异,更希望做“积极的影响”,而不光是赚钱。
一 般人都是要赚钱的,有想法有抱负的人,赚钱不是第一优先级。我们之前选择做教育就是觉得会有“ 积极的影响” 。如果选最容易赚钱的,不如去做娱乐,比如陪伴型机器人,虚拟男友、女友。
绿洲:多模态对话系统现在有哪些 SOTA 的系统或者产品?
俞教授: 基本没有成熟的产品,还是以研究组为主。我们公司也在做产品。多模态分好几种,看是只有音频,还是有视频和音频?你的机器人是否需要一个固定的形象?一个照片?或者一个虚拟人类?还是一个更真实的 AI 数字人?不同的内容会有不同程度的产品。数字人国内做得比较多,我听说京东有直播数字人,但这类直播实现的交互很少,主要就是产品宣传。
市场上做得更多的是数字人,他们的重点是让这个数字人的形象、声音、姿态更像人。这和我们主攻的领域还是有很大差别的。我们的做法是用多模态信息去了解一个人处于怎样的状态,比如这人是否开心? 是否疑惑? 这对模型处理任务是很重要的信息。 我们要跟踪精神状态,根据其反馈对整个对话系统做出 调整。 这是我们以前做得比较多,也是在研究层面的工作。 比如面试的练习,还有社交对话,根据你是否喜欢某个话题做判断,用比较温和的方式来了解你的喜好,而不是“侵入性”的方式。 我们也逐渐在将这些研究产品化,比如谈判训练、沟通训练,通过多模态的信息去了解这个人,然后让机器对人有更多的了解,实现人机交互。
绿洲:从用户的角度来说,智能体的形象重要么?比如科幻片 < her > 也没有具象,但是她特别智能,声音悦耳性感,对用户来说是否也足够了?
俞教授: 还是看场景需求。比如一个专业的场景,形象未必重要。如果是陪伴型的场景,比如教小朋友数学,孩子会觉得和具体的形象更利于互动和展示。
绿洲:从你研究角度而言,现在多模态对话系统上最大的挑战是什么?
俞教授: 首先是数据采集,其次是场景中的多模态能对产品起到多大提升。比如你没有这些多模态信息,产品是否也可以做得挺好?所以多模态和场景还是强相关的。
绿洲:是否因为下游需求不明确,导致上游数据不多,研究就会遇到困难?
俞教授:这个是多样化的,就比如面试场景,对用户理解很重要,适应用户很重要。人类为了提升交流质量,会去获取更多的信息,同理,机器是否也可以在信息增加的基础上改善交流能力?但是做任何事情都有成本,录视频,处理视频都是计算,哪些场景值得去付这个成本?研究也不是老师拍脑袋就能做的,也需要资金支持。哪家机构愿意出资做什么内容?如果功能不明确,工业界就很少会投钱。政府也是一样,比如在国防、智能场景是否是必须的?学术界有市场驱动的研究项目或者未来研究,也有纯基于好奇心去做的项目。
绿洲:近几年您实际的研究和工业界相比是会更前沿,还是连接紧密,或者工业界更落地?
俞教授: 学术界的研究和工业界的研究本身是有差异的。AI 而言,学术界看每个研究小组的 PI 选择什么研究方向。AI 最早都是在学校做的,比如语音识别。最近 5-10 年工业界 AI 开始招研究员,也是因为发现有应用场景,才开始做研究。谷歌就做了很多著名的工作,比如 Transformer,对学术界造成了巨大的影响,我们现在都用 Transformer 做基础模型。但是很多老师也会持反对意见,觉得学术界和工业界的内容应该有差异化,和他们拼是不合理的,毕竟工业界有更多的资源,也有直接落地的场景。
学术界应该做更前沿的东西,在技术还不成熟的时候,就要去假设这些技术何时会成熟,把大家缺乏想象力的东西糅合,提前开始研究。比如我从十年前就开始做多模态对话系统了,那时候视觉上刚刚出现相对靠谱的无监督情绪检测。而在工业界会因为技术不成熟,可能要四五年才能做产品。风险比较高,耗时比较久的课题,就不容易在工业界得到支持。
绿洲:多模态对话系统在工业界大规模落地了么?
俞教授: 也不算,说到底还是场景的问题。工业界有很多约束和政策,你很难预料。这里牵涉一个更重要的问题是隐私。多模态下和用户的协议怎么做?美国的用户对自己隐私也越来越看重,欧洲用户就更不用说了。从用户角度,关注隐私保护,你是否会录我的视频,我的视频未来怎么处理,都是需要慎重考虑的。从公司角度,要推这个产品,交换代价是什么,怎样才能获得用户的肯定?如果录视频的代价是公司能给用户更好的体验,用户愿不愿意选择呢?这不是简单的“是”或者“否”的命题,而是牵涉很多法律层面的问题。隐私是落地难的其中一个原因,除了隐私,还有算力成本的问题,产品体验的提升是不是可以让企业甘愿承担增加的成本?
绿洲:怎么看待关于“很多场景不需要大模型,只要中小模型就可以了”的说法?
俞教授: 单位 经济 (unit economics) 上是否能走通是一回事,从人类进步角度来讲,机器能接受到的信息越多,机器就会对周围的场景和对话的人有更多的了解,从而可以相对地做出反应,变的更智能。
绿洲:OpenAI LLM 突然席卷全球,它带来好处的同时是否也有弊端?
俞教授: 比较明显的是隐私安全问题。有些欧洲国家就因为隐私问题禁用了 OpenAI,因为 OpenAI 没有向欧洲方面提供合理可信的处理方式。当然现在模型还有“胡说八道”的成分, 生成的内容,真假参半,可能会误导用户。
绿洲:你们的研究是靠预训练还是微调来应对安全问题呢?或者说研究和落地两者解决这个问题的思路是什么?
俞教授: 这两者有非常大的不同。学术界有很多做偏见(bias)和公正(fairness)相关的内容。LLM 的训练数据都是网上扒来的,数据源头就有偏见,大家也会评估因源头偏见导致的模型输出偏见属于哪一类,模型是否增强扩大了这种偏见?很多工作室的方向是如何去测试偏见,还有一部分是从嵌入(embedding)的角度去处理问题。之前我们和 NYU 的老师合作就是在做“去偏误”嵌入(debias embedding), 从上游解决一部分偏见问题,到下游应用就好很多。还可以从数据上入手,比如你在某些数据上已知有偏见并检测到之后,可以研究能否重新生成数据减轻偏见,重新训练模型。
机器学习过程中有各种方式去处理这种问题。但是 LLM 不同,由于数据量太过庞大,要从根源上去解决数据问题是不现实的。但是从机器学习的角度来说,可以从最上游的数据,到第二层的嵌入 ,再到下游的应用,用各种方法去处理偏见。
当然除了偏见、公正,还存在有毒语言(toxic language),例如仇恨言论(hate speech),这又是另一块单独的研究了。我们肯定都会做数据清洗,但不可避免会遗漏一些奇怪的内容。各大公司都会做自己的 API 进行过滤,比如Perspective ( https://perspectiveapi.com/ ),但是做得也不是特别好。因为有毒的语言日新月异,很多种族偏见是要结合上下文才能看出来的,更何况还有加密语言(coded language),不是简单的关键词定位就可以轻易辨别的。
做模型安全是另一个研 究方向。比如模型做好了拿出去,是否会有人恶意攻击你的模型来获得你的原始模型训练数据,这个过程中可能就会泄露原始数据中的用户隐私。安全问题的其中一个解决方案是在模型训练中加入噪音,让生成的模型本身就有安全保障,外界攻击拿不到原始数据。当然这种模型的特点就是,越安全,使用度越差,需要在这两者之间做出平衡。比如我的组也做 NLP 差异化隐私(Differential Privacy for NLP) 这个话题。
因为存在巨大的需求,学术界在这块投入了很多资源。如果大公司要用 AI 来做实际任务,都需要在安全、偏见、伦理等方面把关。比如公正性,招聘系统要确保用 来筛选简历的 AI 对不同背景的人是包容的;还有银行贷款、牵涉 AI 决策的领域,都需要保证真实性和公正性,否则在实际应用中会发生很多法律纠纷。
说回我自己的研究,我们做的领域不那么宽泛,而是基于每个具体场景,比如谈判、培训、交流,都有固定场景,固定的角色去选择。自由度不大,机器就可以侦测是否超出了领域,你可以告诉模型我们做的是这个任务,需要坚守岗位。我们肯定也会做精准过滤,确保生成的内容是安全的。比如当用户跟机器说不好的内容的时候,机器可以回复:“ 谈论这个话题让我觉得不舒服,让我们回到 XX 主题吧。 ”
绿洲:商业产品可控性强取决于产品本身的特性的原因是什么?
俞教授: 因为领域比较专,就不会有人绕过各种各样的事情来攻击你。比如 OpenAI 会有很多人绕着弯来让模型说不好的内容,如果我们的机器非常明确它是用来干一件事,其他不是它的工作范围,那就可以规避一些问题。
绿洲:也就是说做基础模型的公司更要去关注上述的问题?
俞教授: 对,但特定领域也需要重视,比如心理咨询就是一个高风险任务,教育也是高风险任务,要注重答案的正确性,不能对学生产生误导。
绿洲:您觉得 OpenAI 在这个问题上解决得好么?
俞教授: 不好呀(笑)。比如我叫 ChatGPT 介绍一下哥大的俞舟老师?它给我编了很多不实的内容。尤其是半真半假的内容,对不懂的人来说,非常容易被误导。
绿洲:这么多的案例要都解决,是否还是应该先解决一些常见的场景?
俞教授: 这是工业界的看法。从学术界而言,我们在设计各种各样的算法,去发现更好的解决方式,而不是写一个 if then,或者用更多的训练数据去提升性能。人类反馈强化学习(RLHF)也是一种减少内容不实的方式。学术界做了很多工作去减少“胡编乱造”,但截至目前并没有一个非常有效的方法,所以这也是一个核心研究方向。
绿洲:您是在开拓型社交对话系统领域最早关注 chatbot(闲聊机器人)的先锋,相信您的初心在那里。现在这还是您愿意为之终身追求的目标么?
俞教授: 是的。我刚开始做对话系统的时候,大部分情况都是应对固定任务,比如订票、订酒店,信息流很简单。作为机器人,我知道酒店都有哪几个,而作为人,你知道自己想订什么样的酒店,整个过程就是简单的信息交换,任务显而易见,机器只要完成就行了。但我发现只是简单的信息交换远远不够,很多场景在完成复杂的任务的时候,用户体验十分重要,不是简单交流信息就可以完成的。交互本身有两条线,一种是任务交互(task engagement),一种是社交交往(social engagement)。我们把任务交互先拿掉,只讲社交,就可以看到系统在交互上是不是呈现自然的交互状态。订票订酒店,用户体验即使差,最后只要订上了就完成了任务,人们还能忍耐,继续使用。但是复杂场景就完全不够用了。没有固定任务和人类进行“闲聊”的对话机器人,是另一个极端,因为没有具体的任务,所以任务交互就没有了,只需要研究社交交往。
我们做了很多闲聊机器人的工作,比如如何去和用户积极沟通,如何去衡量这个交互的质量。我们也做了多模态,因为你了解这个用户,比如他看哪里,表情如何 都是很重要的。这不是说让机器和人变得一样,而是让人跟机器交流时觉得跟人交流一样自然。这样一个可以与人能自然交流的机 器人是我们的最终目标(We are aiming to build agents that can elicit natural human behabiors.)。
如果人和机器的认知负荷(cognitive load) 很小 ,和真人聊天没有差别,用户体验就很极致。人与人之间的交流,有时候带任务,有时候不带,有时候穿插进行,相当复杂。要做到终极的自然交流,机器就不能只完成任务,而是要有社交能力。
当“ 闲聊” 做到一定程度,我们便开始混合“ 闲聊” 和“ 任务” ,让人和机器产生社会联系:我要说服你去锻炼, 给你精神支持,让你心情变好,训练你谈判,教会你谈判的技巧…… 对话不是单一任务,要做计划(planning )。因为有了复杂性,机器才会拥有更上层的能力。
绿洲:AutoGPT 出来以后自主智能体的成长很快,从社交属性这方面,您有什么看法吗?
俞教授: 我觉得 AutoGPT 之类的过于炒作,我们也都试用过,比如最简单的测试,去查过去 7 天的天气,它就会卡在某个 API 上无法前进。更多的时候的确你给它一个大任务,它可以做规划,写脚本,一步一步去调用专门的模型做执行。这个概念是完全没问题的,而且是大家很早就推崇的,将一个多样性测试分解成模块化任务,每个模块都有一个模型去执行。
语言学称之为“ 构成性“ (compositionality) ,这和语言的形成是一样的。先学名词,动词,再把名词、动词、介词叠加在了一起,就生成了意义。对于任务也是如此,任何复杂的任务,都可以拆解成小任务,用专门的模型去完成。当前模型是否能自主地去做这件事,主要是模型卡在哪步,它怎么解锁自己? 是向人类寻求帮助,还是知道自己能力的局限,是否能自行去网找相关的训练数据,自我更新?
大家的研究方向都很类似,一是如何将人类参与到改进机器智能的过程 中去,一是机器是否有能力自己去网上去找适合的新数据做训练来更新自己的参数。
绿洲:定义多模态对话系统对话质量的好坏是否有相应的指标?
俞教授: 根据你要实现的任务,会有不同的指标。比如说客服电话,最重要的指标是任务是否完成,用户需求是否得到满足。还有对话的效率,是一个小时,还是 10 分钟就解决问题?再有,用户在使用系统过程中是否获得积极的体验,是否愿意复用?这些都是客服系统的衡量指标。
教育领域的评判标准是和学生有没有学会知识密切相关的;娱乐领域的用户留存就是最重要的。不同的场景, 都有不同的评判标准。
绿洲:多模态对话系统,它要求的算力和数据量是不是要于远远大于单模态系统?
俞教授: 是的,光要处理视频对算力的要求就很高,其次有各种技术上的实现,视频接入,存储处理等都有成本。目前市场上做得比较多的还是语言加图片,音频基本没有,主因也是数据量需求太高。你需要不同的平行数据本身就很难找。
其次是应用需求不足。视觉和图像有明显的数量基础,比如学术界常见的 CLIP 模型,后来有 Flamingo 视觉- 语言模型。现在 GPT-4 也有图像输入,都是因为有需求存在。现在文生图,或者语言图像 混在一起做理解的需求都很大。再以后大家可能会需要文生视频,现在也有很多人在做;视频里本身有音频,音频可以用 ASR (Automatic Speech Recognition) 转文本,然后加视觉,最后视频本身就可以作为输入信息。
绿洲:语音识别训练的特别之处在哪里?
俞教授: 语音识别商用的模型都已经很不错了。它特别的地方在于,比如很强的背景杂音你需要做语音增强,有前置的信号处理;其次不同人群在语音识别上的差异也很大,比如小朋友因为发音器官不成熟,和成人发音会有差异;又或者老人说话不清楚,识别就很难实现;还有口音,因为不存在标准语音。亚马逊投入很多资源去收集口音形成语料库,重新训练模型,我们称为富资源语言,做出来的语音识别效果就很好。文本也是同样的情况,因为语言的多样性,GPT 针对小语种的能力就不行。
绿洲:AIGC 的浪潮让很多人开始创业,有人说把 AutoGPT 和 ChatGPT 等工具集中起来以后,可能之前需要 100 个人才能搞成的公司,现在一两个人就可以了。您觉得这是一个事实,还是夸大了模型的能力?
俞教授: 一两个人是肯定是不可能的,你要做一个产品,前端、后端都要有。只不过因为新工具的出现,一些原本工程任务用 API 包装一下,就可以做到七八成了。创业最重要的一点是,你做的不是一个产品,而是一个服务,你的终端用户是否满意?如何用技术包装你的服务,本身也是一个学问。
绿洲:从您语言学和计算机双修的背景,如何看待 LLM 对世界未来的影响和趋势?
俞教授: 确实是巨变,不是说技术上算法基线的变化,而是通过扩大规模让模型更强大。给世人看到了可能性,推广到每个人都适用,根据自己的想法去改造模型,让更多传统行业去慢慢了解 AI。AI 并不是专家做了就能推广,是需要领域内的人去了解,然后共同开发。当前是非常好的契机。
当然这股热潮也有一些泡沫,但总的来说它是给大家做了一个启蒙式的教育,让大家更了解 AI。模型到底是怎么样的?它能做什么?它不能做什么?对照自己的需求是否可以通过模型来解决。Open AI 和 ChatGPT 的示范给大家看到了很多可能性, AI 专家或者是有技术、有经验的人,可以思考怎么跟传统行业对接,共同开发可以落地的产品。
绿洲:你觉得LLM已经有泡沫了吗?
俞教授: 我觉得有太多的人想做相同的事情,本身机制上会产生过度竞争,而且有很多以前并不在这个领域的,一拍脑袋说我也要上船了。 民间可能过热,如果团队不合适,很快就会失败。 创业还是要谨慎,创始人本身是否适合做这件事,有没有合适的团队是很重要的,并不是说有热潮,市场很大,挤进去就一定能成功。 必须有比别人更有优势的地方,一定能转化成现实收益的优势,同时要非常了解自己的优势。
参赞生命力
你觉得什么是科技生命力?
创新是科技保持生命力的根本,但是创新的方向又在哪里?我认为科技的创新要依赖于和社会民生的有效结合,让科技驱动一些正向的社会民生变革,才会走得长远。
—— 俞舟教授 ,哥伦比亚大学计算机系