非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf
《非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf》由会员分享,可在线阅读,更多相关《非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf(13页珍藏版)》请在文库网上搜索。
1、27No.3,2023SCIENCEECONOMYSOCIETYVol.41,Total No.1742023年第3期第41卷总第17 4期科學.经濟社會非图宾根基准下LLM ChatGPT的因果发现和因果推理能力邱德钧摘要:基于图宾根基准在多学科的因果测试,建立了不同于该基准的两个变量的因果关系对(人文社会科学)因果关系数据库;在此基础上分析了LLM在新的基准下因果发现中的能力和问题;探讨了在因果估计阶段,系统在数据或条件不充分下的因果推理能力。期望LLM以一种新的、友好的因果研究范式与传统方法结合,为我们日常处理因果问题提供全新的助力关键词:LLM;图宾根基准;因果发现;因果估计中图分类号
2、:B815文献标识码:A文章编号:10 0 6-2 8 15(2 0 2 3)0 3-0 0 2 7-13D0l:10.19946/j.issn.1006-2815.2023.03.003微软研究院的埃姆雷基西曼(EmreKiciman)等在霍布汉恩(Hobbhahn)等人针对LLM中因果因素的隐性和显性能力研究的基础上,以图宾根基准探讨了两个因素形成的因果对(c a u s a l p a i r)上进行因果发现的能力。但该基准涉及的领域主要是生物、海洋科学、物理等,人们更期望了解LLM在历史、文学、新闻等具有较复杂因素和背景下尤其是包含许多抽象概念而不是可度量的实体概念领域的因果发现表现,
3、这是本研究的初衷。在中文环境大语言模型的因果表现力,也是进一步要关注的点。针对抽象概念和不同学科如果有类似微软研究院报告的结果,将极大促进该模型的应用推广;探讨中文环境及背景下的因果发现和推断力,如出现新的特征,也将是有意义的话题。因此,本文拟介绍研究背景,然后讨论刚出现还没用进人应用领域的大模型作为一般基础模型在人文社科领域处理因果对的发现能力和因果效应收稿日期:2 0 2 3-0 2-15基金项目:国家社会科学基金“人工智能中关于因果关系的归纳模型研究(2 0 BZX107)作者简介:邱德钧,兰州大学哲学社会学院教授,从事逻辑学、ML中因果关系研究。E-mail:Marius Hobbha
4、hn,Tom Lieberum,David Seiler,Investigating Causal Understanding in LLM,in NeuriPS ML SafetyWorkshop,2022.Em r e K i c i m a n,Ro b e r t Ne s s,A m i t Sh a r m a,e t a l.,“Ca u s a l Re a s o n i n g a n d La r g e La n g u a g e M o d e l s:O p e n i n g a Ne wFrontierfor Causality,2023-04-28,http
5、s:/arxiv.org/abs/2305.00050.282023年第3期科學经濟社會估计能力,以引起应用研究领域的关注;然后讨论ChatGPT在不产生新知识的情况下,已经有了处理因果发现中很难结合先验的背景知识的能力,却克服不了大模型的记忆效应问题。限于篇幅,将在后续研究中给出这一基准数据集的构建标准和准确的实验评估一、研究背景库恩认为新的科学方法出现是带来科技革新的动力,引发“范式转变”,在人与机器共同作用于人类社会的时代,人机交互的便利性也是一个重要的驱动力。方便性和易用性驱使我们使用或拒绝使用新技术,这也会作用于科技革命。方便性有时被称为“拉低技术门槛”,其贬义是指新的技术应用范围扩
6、大却没有促进社会进步,其褒义则是导向便捷的新技术在新的交互下扩大了掌握专业技术社区人员的数量而最终催生了新的技术革命。2019年以来,因果问题的图谱基本清楚,划分为因果发现和因果效应估计两大块,在机器学习领域,这两块由珀尔(Judea Pearl)的因果图依据前、后门准则?连接起来。因果发现领域由依据独立性的PC算法和分数匹配法构成,独立于二者之外的是专家的领域知识。因果推理或因果效应估计领域情况要复杂一些,为最终登上A/B实验之山,跨过珀尔的因果桥梁进人因果估计领域后,要经历匹配森林、真实实验。在整个因果世界,LLMChatGPT是否能给因果问题带来新的研究范式,效果如何,如何使用以及需要注
7、意哪些问题,我们将进行详细的闸述。二、非图宾根基准下的因果发现关于从自然语言中推断因果关系的问题,霍布汉恩等人研究了LLM是否能够理解嵌人自然语言中的因果关系,即给定两个句子,一个句子中的事件是另一个句子的原因,考察在此情形下LLM是否能够识别。标准因果发现领域关注的是两个单独变量之间是否有因果,图宾根基准(Tibingenbenchmark)给出的10 8 个变量对(pair),涉及可度量的数学、生物化学领域里的变量,埃姆雷基西曼在GPT3.5和GPT4中给出测试并得出了结论,研究的重点在如果LLM进行因果推理,那么它们可能进行什么样的因果推理;如果它们可以进行因果推理,那么它们可能被用于什
8、么样的目的?发现基于LLM的方法大大超过了现有的识别算法,在图宾根基准上实现了9 7%的准确率,而之前的最好成绩是8 3%。该基准包括来自不同领域的一百多个因果关系,包括理科、农学等中的多个变量,因此不涉及抽象概念。我们实际关注更Thomas S.Kuhn,The Structure of Scientific Revolutions,Chicago:The University of Chicago Press,1962.Ju d e a Pe a r l,Ca u s a l i t y:M o d e l s,Re a s o n i n g,a n d In f e r e n c e
9、,Ca mb r i d g e:Ca mb r i d g e U n i v e r s i t y Pr e s s,2 0 0 0.Marius Hobbhahn,Tom Lieberum,David Seiler,Investigating Causal Understanding in LLMs,2022.Joris M.Mooij,Jonas Peter,Dominik Janzing,et al.,Distinguishing Cause from Effect Using Observational Data:Methods and Benchmarks,Journal of
10、 Machine Learning Research,2016,Vol.17,No.32,pp.1-102.Emre Kiciman,Robert Ness,Amit Sharma,et al.,“Causal Reasoning and Large Language Models:Opening a NewFrontierfor Causality,2023-04-28,https:/arxiv.org/abs/2305.00050.29非图宾根基准下LLMChatGPT的因果发现和因果推理能力邱德钧多的是人文社科领域,因此我们建立起中文的人文社科领域基准库,本文尝试挑选具有代表性的问题,建
11、立一个初步的涉及哲学、文学、历史、社会学、公共卫生、管理学等领域的因果对库,来测试GPT4在成对因果问题上表现出来的性能,尤其是处理抽象概念对的性能。预设以下测试条件:给出A和B两个元素,假设满足赖辛巴哈(HansReichenbach)的因果条件独立性;通过提示工程设定GPT4的角色,询问A与B之间是否存在一条边,若存在,给出方向进一步确定因果关系。在大数据里发现因果关系,在GPT出现前的非LLM方法里,正是遵循因果结构蕴含着变量之间的一组独立性关系,如果二者之间没有直接的函数关系或共同的父变量,那么它们就是独立的。基于约束的算法遵循上述逻辑,通过执行统计检验来确定变量之间的依赖关系,然后根
12、据定向规则确定变量之间的因果方向,从而构建起因果图。再直接搜索图空间,评估每个图契合观测数据的程度,从而找到最契合观测数的图作为最终因果图。重要的是要意识到,图的边确定了,但图的方向仍未必然确定。这限制了许多不可量化或极难量化的概念尤其是抽象概念之间计算因果的应用场景,而人文社会科学里涉及许多这种很难量化的概念。相对于以上的非LLM方法,LLMChatGPT带来了迄今为止仅限于人类的理解能力,使得在两个方面提供了新的因果发现方法:一是使用收集的知识来生成因果图或从自然语言中识别背景因果关系,使该系统有了两种新能力一一处理抽象概念的能力和天然地处理背景知识的能力与原PC等算法的自然融合,在非LL
13、M方法中,专家知识在PC等算法之外,不会主动、自然地与其他算法结合。独立在算法外的专家知识,要么在算法开始前介人,要么在算法结束后再介人修正因果图。LLM却可以和现有的因果方法一起使用,作为人类领域知识的代理,并减少人类在建立因果分析方面的努力。表1是部分多领域因果对,测试结果参见附录中两个变量的因果关系对(人文社会科学)因果关系数据库。表1两个变量的因果关系对数据库示例变量1变量2数据集pair0001沈从文的城市书写乡村出身的自卑心理文学pair0002洋脚传人成都顾天成迎娶蔡大嫂文学pair0003美国随胎法案被废正发生获夏纳大奖电影艺术pair0004周作人附逆兄弟反目文学史pairo
14、005孙悟空大闹天宫唐三藏西天取经文学pair0006庄生晓梦迷蝴蝶望帝春心托杜鹃中国哲学pairo0007大道废有仁义中国哲学pair0008有德有信中国哲学pair0009守礼社会和谐中国哲学pairo010阴阳中国哲学pairoo11天与地卑山与泽平中国哲学pair0012青春期叛逆父母外出务工社会学pair0013独生子女死亡隔代抚养社会学这促使我们深思以下问题:不管LLM是否真的在进行因果推理,还是仅仅在语言里进行预测,它们根据经验观察到的执行某些因果任务的能力和表现出的结果,足以为我们目前仅依赖人类的因果推理方面提供有用的补充,也进一步肯定了统计学数百年坚持的假设:未来302023
15、年第3期科學经社會未观察到的事件将与过去惯常的事件一样发生。例如,传统的因果识别和效用推理强烈依赖于系统中潜在因果机制的先验领域知识。目前的最佳做法是依靠人类领域专家,结合大语言模型来理解和形式化因果情景,根据关于世界的背景知识产生相关的形式化前提;识别和正确构建具有挑战性的因果约束、验证假设和反驳虚假证据的能力,如消极和积极控制、单调性关系等。这些都是以前我们单独依靠人类专家的任务,现在可以在人类的监督下部分或完全自动化。LLM确实还存在意想不到的失败模式,会对某些输人做出简单的、不可预测的错误判断。吴恩达等的教程也表明其准确性(以及随之而来的鲁棒性)在很大程度上取决于所使用的提示工程(pr
16、ompt)。因此,我们认为要完全描述LLM内在的因果推理能力并理解其基本机制,正在寄希望于更大的模型来解释GPT4,在这之前,在关键的决策任务和其他因果应用中单独信任LLM是不谨慎的。然而,大语言模型目前的能力已经足够先进,可以与正式的因果推理、发现和效果推断的现有方法一起使用。在测试中GPT4表现出理解背景知识能力仍然不足,但即便如此,在因果方向的判定上却没有出错。User:你是佛经研究专家。佛经记载,友子以千金为本经商,却性邪行娶,财尽复穷。问题:性邪行娶,是否是财尽复穷的原因?ChatGPT:在此,我们需要先了解一些基本的概念。根据佛教的教义,行为(karma)是造成个人生活经历变化的主
17、要因素。“性邪行娶”大致可以理解为对性欲的放纵和对女性的过度追求。“财尽复穷”则指财富的耗尽和陷入贫穷。所以,你的问题是在询问是否是由于“性邪行娶”,导致了“财尽复穷”。佛教认为,人的行为和意识会影响他的生活状态,这是因果关系的一种表现。从这个角度来看,如果“性邪行”导致了过度消费,财富的浪费,或者忽视了其他重要的生活方面(如职业发展,社会关系等),那么这种行为可能是“财尽复穷”的一个重要原因。然而,我们必须理解,这样的因果关系可能并不是唯一的,也并不是决定性的。其他因素,比如经济环境的变化,商业决策的失误,甚至健康问题等,都可能导致“财尽复穷”。所以,尽管“性邪行娶”可能是一个重要因素,但不
18、能将其视为唯一的,或者决定性的原因。此外,这种解读也符合佛教的一个基本原则,即中道。佛教提倡避免走向极端,无论是过度禁欲,还是过度放纵,都可能导致生活的不平衡和苦难。因此,“性邪行娶”可能被视为一种极端行为,而佛教则鼓励人们在欲望和自我约束之间寻找平衡。统一、友好的界面,强大的自动的背景知识融合,LLM为我们提供了因果发现的一种新吴恩达等,“ChatGPTPrompt Engineeringfor Developers,2023-05-15,https:/learn.deeplearning.ai/chatgpt-prompt-eng/lesson/,DeepLearning.Al.31非图宾
19、根基准下LLMChatGPT的因果发现和因果推理能力邱德钧的范式,但仍然有新的问题需要我们去探究。第一个问题是记忆效应会不会影响系统对因果关系的判定?第二个问题是任意给定一组无序的涉及多学科领域的概念抑或是抽象概念,GPT是否能清楚正确地识别出因果对?因为上述论文只是探讨了因果关系下GTP的进一步细分领域,如是否能够区分充分条件、必要条件等,没有对抽象概念如何进行因果配对测试,因此本文弥补这点不足。对于第一个问题,埃姆雷基西曼已经用例子证明LLM模型存在记忆效应,大规模的训练和用户累积的问题回答,可能会造成你所提出的因果关系问题的判定,不是该模型初次遇见,那么这个时候就会呈现出记忆效应,系统可
20、能已经直接记住了基准答案。在这种情况下,我们的因果问题很可能不是在测试LLM完成任务的内在能力(除非记忆是我们要测试的能力!)。在上述论文中,为了测试LLM是否已经记住了某个特定的数据集或基准,给LLM一个数据集的部分行,要求它自动完成该行的剩余内容。对于一个问题一答案基准,给LLM一半的问题,并要求它自动完成问题本身的剩余部分。为了鼓励LLM成功,在前面加上了关于数据集的细节,比如它的名称、URL和描述,并且还提供了一些例子。记忆测试的最终测量结果是LLM能够正确再生出问题的剩余部分。我们测试了系统不太可能预先有记忆的“重庆巫溪县胜利乡“村村通工程”的问题,该语言模型利用已有的背景知识仍然给
21、出合理的答案,认定并判断出人口减少与“村村通工程 有正相关,存在一定的因果联系。User:重庆山区如巫溪县的胜利乡村落常住人口减少,与道路的村村通工程有无因果关系?ChatGPT:重庆山区原有村落常住人口减少与道路的村村通工程之间可能存在一定的因果关系。道路的村村通工程旨在提高农村基础设施水平,使农村地区更加便捷地与外界联系,从而带动当地经济发展。这种发展可能会对人口变化产生影响,具体表现在以下几个方面:1.提高流动性:随着道路的村村通工程建设,农村地区的交通条件得到改善,村民们能更方便地前往城市和其他地区。这可能导致一部分农村居民选择到城市等地寻求更好的就业和生活机会,从而导致农村常住人口减
22、少。2.推动经济发展:村村通工程使农村地区更容易吸引投资,带动产业发展一些农村居民可能会在当地找到新的就业机会,但这也可能加速了农业劳动力向非农产业的转移,使农村常住人口减少。3.促进城乡融合:随着道路建设,农村与城市之间的联系更加紧密。农村居民能更容易地享受到城市的资源和服务,这可能刺激他们向城市靠拢,从而导致农村常住人口减少总之,道路的村村通工程可能在一定程度上与重庆山区原有村落常住人口减少之间存在因果关系。然而,我们应当注意到,农村人口变化是受多种因素影响的复杂过程,除了道路建设之外,还包括政策、教育、医疗、人口迁移等因素。因此,在分析这一问题时,需要综合考虑各种因素的影响。工鲜小回工雄
23、休丫健词“特特通”“尚优优一胜利乡地处边远,鲜少见于媒体,加上关键词“村村通”“常住人口”,依据ChatGPT对话提322023年第3期科學经濟社會问时损失函数算法,值应较大,模型仍然给出了合理的回答。由此反证了记忆对确定因果关系实际是正面作用,除非曾经依据错误数据训练;即便在偶有错误因果记忆出现的特例中,随着联网插件出现,错误记忆对这类因果关系的判断的影响也是可纠正的。对于第二个问题我们任意给定一组跨多学科领域的抽象概念让该模型进行配对,即让系统自已确定哪两个变量之间可能形成因果对。以下是对GPT4的测试和给出的答案:着联网插件出现,错误记忆对这类因果关系的判断的影响也是可纠正的对于第二个问
24、题我们任意给定一组跨多学科领域的抽象概念让该模型进行配对,即让统自已确定哪两个变量之间可能形成因果对。以下是对GPT4的测试和给出的答案:User:你是多领域专家,尤其擅长发现因果相关。请把以下多领域的概念中具有因果联系的对找出来,然后按格式“原因/结果 给出来,并把剩余的概念单独列出:人的年龄、鱼的食量、温度高低、质变、嫉妒、成绩提高、亚里士多德的质料因、康德的先验、超验、芭蕉叶响、愤怒、夜雨、量变、人的身高、人的个性天生、气球的体积、分子大小、电动车的速度、重力大小、圆的面积、圆周率、兴趣、书法练习、钢琴练习、体重、两性之间的吸引力、王羲之的兰亭序ChatGPT:因果对:温度高低鱼的食量:
25、研究显示,水温的变化可以影响鱼的新陈代谢速度,进而影响鱼的食量。成绩提高书法练习:虽然看似无直接关系,但是书法练习可以提高个人的专注力和耐心,这些能力可以转化为学习能力,从而提高成绩。钢琴练习兴趣:对钢琴的兴趣可能导致对钢琴的更多练习,反之,钢琴的练习也可能增加对钢琴的兴趣。亚里士多德的质料因康德的先验:亚里士多德的质料因(物质的实质)是康德的先验(不依赖经验的认知)的基础,因为先验认知需要某种物质基础。量变质变:这是马克思主义的重要观点,认为量的变化积累到一定程度,就会引发质的变化。人的身高体重:一般来说,人的身高与体重存在一定的相关性,身高较高的人往往体重较重。气球的体积分子大小:气球内部
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 非图宾根基准下LLM ChatGPT的因果发现和因果推理能力 非图宾 根基 LLM ChatGPT 因果 发现 推理 能力