分享赚钱赏收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 综合论文 > 非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf

非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf

上传人：爱文献爱资料

文档编号：21763535

上传时间：2024-04-23

格式：PDF

页数：13

大小：7.17MB

《非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf》由会员分享，可在线阅读，更多相关《非图宾根基准下LLM ChatGPT的因果发现和因果推理能力.pdf（13页珍藏版）》请在文库网上搜索。

1、27No.3,2023SCIENCEECONOMYSOCIETYVol.41,Total No.1742023年第3期第41卷总第17 4期科學.经濟社會非图宾根基准下LLM ChatGPT的因果发现和因果推理能力邱德钧摘要：基于图宾根基准在多学科的因果测试，建立了不同于该基准的两个变量的因果关系对（人文社会科学）因果关系数据库；在此基础上分析了LLM在新的基准下因果发现中的能力和问题；探讨了在因果估计阶段，系统在数据或条件不充分下的因果推理能力。期望LLM以一种新的、友好的因果研究范式与传统方法结合，为我们日常处理因果问题提供全新的助力关键词：LLM；图宾根基准；因果发现；因果估计中图分类号

2、：B815文献标识码：A文章编号：10 0 6-2 8 15(2 0 2 3)0 3-0 0 2 7-13D0l:10.19946/j.issn.1006-2815.2023.03.003微软研究院的埃姆雷基西曼（EmreKiciman）等在霍布汉恩（Hobbhahn）等人针对LLM中因果因素的隐性和显性能力研究的基础上,以图宾根基准探讨了两个因素形成的因果对（c a u s a l p a i r)上进行因果发现的能力。但该基准涉及的领域主要是生物、海洋科学、物理等，人们更期望了解LLM在历史、文学、新闻等具有较复杂因素和背景下尤其是包含许多抽象概念而不是可度量的实体概念领域的因果发现表现，

3、这是本研究的初衷。在中文环境大语言模型的因果表现力，也是进一步要关注的点。针对抽象概念和不同学科如果有类似微软研究院报告的结果，将极大促进该模型的应用推广；探讨中文环境及背景下的因果发现和推断力，如出现新的特征，也将是有意义的话题。因此，本文拟介绍研究背景，然后讨论刚出现还没用进人应用领域的大模型作为一般基础模型在人文社科领域处理因果对的发现能力和因果效应收稿日期：2 0 2 3-0 2-15基金项目：国家社会科学基金“人工智能中关于因果关系的归纳模型研究（2 0 BZX107)作者简介：邱德钧，兰州大学哲学社会学院教授，从事逻辑学、ML中因果关系研究。E-mail:Marius Hobbha

4、hn,Tom Lieberum,David Seiler,Investigating Causal Understanding in LLM,in NeuriPS ML SafetyWorkshop,2022.Em r e K i c i m a n,Ro b e r t Ne s s,A m i t Sh a r m a,e t a l.,“Ca u s a l Re a s o n i n g a n d La r g e La n g u a g e M o d e l s:O p e n i n g a Ne wFrontierfor Causality,2023-04-28,http

5、s:/arxiv.org/abs/2305.00050.282023年第3期科學经濟社會估计能力，以引起应用研究领域的关注；然后讨论ChatGPT在不产生新知识的情况下，已经有了处理因果发现中很难结合先验的背景知识的能力，却克服不了大模型的记忆效应问题。限于篇幅，将在后续研究中给出这一基准数据集的构建标准和准确的实验评估一、研究背景库恩认为新的科学方法出现是带来科技革新的动力，引发“范式转变”，在人与机器共同作用于人类社会的时代，人机交互的便利性也是一个重要的驱动力。方便性和易用性驱使我们使用或拒绝使用新技术，这也会作用于科技革命。方便性有时被称为“拉低技术门槛”，其贬义是指新的技术应用范围扩

6、大却没有促进社会进步，其褒义则是导向便捷的新技术在新的交互下扩大了掌握专业技术社区人员的数量而最终催生了新的技术革命。2019年以来,因果问题的图谱基本清楚，划分为因果发现和因果效应估计两大块，在机器学习领域，这两块由珀尔（Judea Pearl)的因果图依据前、后门准则?连接起来。因果发现领域由依据独立性的PC算法和分数匹配法构成，独立于二者之外的是专家的领域知识。因果推理或因果效应估计领域情况要复杂一些，为最终登上A/B实验之山，跨过珀尔的因果桥梁进人因果估计领域后，要经历匹配森林、真实实验。在整个因果世界，LLMChatGPT是否能给因果问题带来新的研究范式，效果如何，如何使用以及需要注

7、意哪些问题，我们将进行详细的闸述。二、非图宾根基准下的因果发现关于从自然语言中推断因果关系的问题，霍布汉恩等人研究了LLM是否能够理解嵌人自然语言中的因果关系，即给定两个句子，一个句子中的事件是另一个句子的原因，考察在此情形下LLM是否能够识别。标准因果发现领域关注的是两个单独变量之间是否有因果，图宾根基准（Tibingenbenchmark)给出的10 8 个变量对（pair），涉及可度量的数学、生物化学领域里的变量，埃姆雷基西曼在GPT3.5和GPT4中给出测试并得出了结论，研究的重点在如果LLM进行因果推理，那么它们可能进行什么样的因果推理；如果它们可以进行因果推理，那么它们可能被用于什

8、么样的目的?发现基于LLM的方法大大超过了现有的识别算法，在图宾根基准上实现了9 7%的准确率，而之前的最好成绩是8 3%。该基准包括来自不同领域的一百多个因果关系，包括理科、农学等中的多个变量，因此不涉及抽象概念。我们实际关注更Thomas S.Kuhn,The Structure of Scientific Revolutions,Chicago:The University of Chicago Press,1962.Ju d e a Pe a r l,Ca u s a l i t y:M o d e l s,Re a s o n i n g,a n d In f e r e n c e

9、,Ca mb r i d g e:Ca mb r i d g e U n i v e r s i t y Pr e s s,2 0 0 0.Marius Hobbhahn,Tom Lieberum,David Seiler,Investigating Causal Understanding in LLMs,2022.Joris M.Mooij,Jonas Peter,Dominik Janzing,et al.,Distinguishing Cause from Effect Using Observational Data:Methods and Benchmarks,Journal of

10、 Machine Learning Research,2016,Vol.17,No.32,pp.1-102.Emre Kiciman,Robert Ness,Amit Sharma,et al.,“Causal Reasoning and Large Language Models:Opening a NewFrontierfor Causality,2023-04-28,https:/arxiv.org/abs/2305.00050.29非图宾根基准下LLMChatGPT的因果发现和因果推理能力邱德钧多的是人文社科领域，因此我们建立起中文的人文社科领域基准库，本文尝试挑选具有代表性的问题，建

11、立一个初步的涉及哲学、文学、历史、社会学、公共卫生、管理学等领域的因果对库,来测试GPT4在成对因果问题上表现出来的性能,尤其是处理抽象概念对的性能。预设以下测试条件：给出A和B两个元素，假设满足赖辛巴哈（HansReichenbach）的因果条件独立性；通过提示工程设定GPT4的角色，询问A与B之间是否存在一条边，若存在，给出方向进一步确定因果关系。在大数据里发现因果关系，在GPT出现前的非LLM方法里，正是遵循因果结构蕴含着变量之间的一组独立性关系，如果二者之间没有直接的函数关系或共同的父变量，那么它们就是独立的。基于约束的算法遵循上述逻辑，通过执行统计检验来确定变量之间的依赖关系，然后根

12、据定向规则确定变量之间的因果方向，从而构建起因果图。再直接搜索图空间，评估每个图契合观测数据的程度，从而找到最契合观测数的图作为最终因果图。重要的是要意识到，图的边确定了，但图的方向仍未必然确定。这限制了许多不可量化或极难量化的概念尤其是抽象概念之间计算因果的应用场景，而人文社会科学里涉及许多这种很难量化的概念。相对于以上的非LLM方法，LLMChatGPT带来了迄今为止仅限于人类的理解能力，使得在两个方面提供了新的因果发现方法：一是使用收集的知识来生成因果图或从自然语言中识别背景因果关系，使该系统有了两种新能力一一处理抽象概念的能力和天然地处理背景知识的能力与原PC等算法的自然融合，在非LL

13、M方法中，专家知识在PC等算法之外，不会主动、自然地与其他算法结合。独立在算法外的专家知识，要么在算法开始前介人，要么在算法结束后再介人修正因果图。LLM却可以和现有的因果方法一起使用，作为人类领域知识的代理,并减少人类在建立因果分析方面的努力。表1是部分多领域因果对，测试结果参见附录中两个变量的因果关系对（人文社会科学）因果关系数据库。表1两个变量的因果关系对数据库示例变量1变量2数据集pair0001沈从文的城市书写乡村出身的自卑心理文学pair0002洋脚传人成都顾天成迎娶蔡大嫂文学pair0003美国随胎法案被废正发生获夏纳大奖电影艺术pair0004周作人附逆兄弟反目文学史pairo

14、005孙悟空大闹天宫唐三藏西天取经文学pair0006庄生晓梦迷蝴蝶望帝春心托杜鹃中国哲学pairo0007大道废有仁义中国哲学pair0008有德有信中国哲学pair0009守礼社会和谐中国哲学pairo010阴阳中国哲学pairoo11天与地卑山与泽平中国哲学pair0012青春期叛逆父母外出务工社会学pair0013独生子女死亡隔代抚养社会学这促使我们深思以下问题：不管LLM是否真的在进行因果推理，还是仅仅在语言里进行预测，它们根据经验观察到的执行某些因果任务的能力和表现出的结果，足以为我们目前仅依赖人类的因果推理方面提供有用的补充，也进一步肯定了统计学数百年坚持的假设：未来302023

15、年第3期科學经社會未观察到的事件将与过去惯常的事件一样发生。例如，传统的因果识别和效用推理强烈依赖于系统中潜在因果机制的先验领域知识。目前的最佳做法是依靠人类领域专家，结合大语言模型来理解和形式化因果情景，根据关于世界的背景知识产生相关的形式化前提；识别和正确构建具有挑战性的因果约束、验证假设和反驳虚假证据的能力，如消极和积极控制、单调性关系等。这些都是以前我们单独依靠人类专家的任务，现在可以在人类的监督下部分或完全自动化。LLM确实还存在意想不到的失败模式，会对某些输人做出简单的、不可预测的错误判断。吴恩达等的教程也表明其准确性(以及随之而来的鲁棒性)在很大程度上取决于所使用的提示工程（pr

16、ompt)。因此，我们认为要完全描述LLM内在的因果推理能力并理解其基本机制，正在寄希望于更大的模型来解释GPT4,在这之前，在关键的决策任务和其他因果应用中单独信任LLM是不谨慎的。然而，大语言模型目前的能力已经足够先进，可以与正式的因果推理、发现和效果推断的现有方法一起使用。在测试中GPT4表现出理解背景知识能力仍然不足，但即便如此，在因果方向的判定上却没有出错。User：你是佛经研究专家。佛经记载，友子以千金为本经商，却性邪行娶，财尽复穷。问题：性邪行娶，是否是财尽复穷的原因？ChatGPT：在此，我们需要先了解一些基本的概念。根据佛教的教义，行为(karma)是造成个人生活经历变化的主

17、要因素。“性邪行娶”大致可以理解为对性欲的放纵和对女性的过度追求。“财尽复穷”则指财富的耗尽和陷入贫穷。所以，你的问题是在询问是否是由于“性邪行娶”，导致了“财尽复穷”。佛教认为，人的行为和意识会影响他的生活状态，这是因果关系的一种表现。从这个角度来看，如果“性邪行”导致了过度消费，财富的浪费，或者忽视了其他重要的生活方面（如职业发展，社会关系等），那么这种行为可能是“财尽复穷”的一个重要原因。然而，我们必须理解，这样的因果关系可能并不是唯一的，也并不是决定性的。其他因素，比如经济环境的变化，商业决策的失误，甚至健康问题等，都可能导致“财尽复穷”。所以，尽管“性邪行娶”可能是一个重要因素，但不

18、能将其视为唯一的，或者决定性的原因。此外，这种解读也符合佛教的一个基本原则，即中道。佛教提倡避免走向极端，无论是过度禁欲，还是过度放纵，都可能导致生活的不平衡和苦难。因此，“性邪行娶”可能被视为一种极端行为，而佛教则鼓励人们在欲望和自我约束之间寻找平衡。统一、友好的界面，强大的自动的背景知识融合，LLM为我们提供了因果发现的一种新吴恩达等，“ChatGPTPrompt Engineeringfor Developers,2023-05-15,https:/learn.deeplearning.ai/chatgpt-prompt-eng/lesson/,DeepLearning.Al.31非图宾

19、根基准下LLMChatGPT的因果发现和因果推理能力邱德钧的范式，但仍然有新的问题需要我们去探究。第一个问题是记忆效应会不会影响系统对因果关系的判定？第二个问题是任意给定一组无序的涉及多学科领域的概念抑或是抽象概念，GPT是否能清楚正确地识别出因果对？因为上述论文只是探讨了因果关系下GTP的进一步细分领域，如是否能够区分充分条件、必要条件等，没有对抽象概念如何进行因果配对测试，因此本文弥补这点不足。对于第一个问题，埃姆雷基西曼已经用例子证明LLM模型存在记忆效应，大规模的训练和用户累积的问题回答，可能会造成你所提出的因果关系问题的判定，不是该模型初次遇见，那么这个时候就会呈现出记忆效应，系统可

20、能已经直接记住了基准答案。在这种情况下，我们的因果问题很可能不是在测试LLM完成任务的内在能力（除非记忆是我们要测试的能力！）。在上述论文中，为了测试LLM是否已经记住了某个特定的数据集或基准，给LLM一个数据集的部分行,要求它自动完成该行的剩余内容。对于一个问题一答案基准，给LLM一半的问题，并要求它自动完成问题本身的剩余部分。为了鼓励LLM成功，在前面加上了关于数据集的细节，比如它的名称、URL和描述，并且还提供了一些例子。记忆测试的最终测量结果是LLM能够正确再生出问题的剩余部分。我们测试了系统不太可能预先有记忆的“重庆巫溪县胜利乡“村村通工程”的问题，该语言模型利用已有的背景知识仍然给

21、出合理的答案，认定并判断出人口减少与“村村通工程有正相关，存在一定的因果联系。User：重庆山区如巫溪县的胜利乡村落常住人口减少，与道路的村村通工程有无因果关系？ChatGPT：重庆山区原有村落常住人口减少与道路的村村通工程之间可能存在一定的因果关系。道路的村村通工程旨在提高农村基础设施水平，使农村地区更加便捷地与外界联系，从而带动当地经济发展。这种发展可能会对人口变化产生影响，具体表现在以下几个方面：1.提高流动性：随着道路的村村通工程建设，农村地区的交通条件得到改善，村民们能更方便地前往城市和其他地区。这可能导致一部分农村居民选择到城市等地寻求更好的就业和生活机会，从而导致农村常住人口减

22、少。2.推动经济发展：村村通工程使农村地区更容易吸引投资，带动产业发展一些农村居民可能会在当地找到新的就业机会，但这也可能加速了农业劳动力向非农产业的转移，使农村常住人口减少。3.促进城乡融合：随着道路建设，农村与城市之间的联系更加紧密。农村居民能更容易地享受到城市的资源和服务，这可能刺激他们向城市靠拢，从而导致农村常住人口减少总之，道路的村村通工程可能在一定程度上与重庆山区原有村落常住人口减少之间存在因果关系。然而，我们应当注意到，农村人口变化是受多种因素影响的复杂过程，除了道路建设之外，还包括政策、教育、医疗、人口迁移等因素。因此，在分析这一问题时，需要综合考虑各种因素的影响。工鲜小回工雄

23、休丫健词“特特通”“尚优优一胜利乡地处边远，鲜少见于媒体，加上关键词“村村通”“常住人口”，依据ChatGPT对话提322023年第3期科學经濟社會问时损失函数算法，值应较大，模型仍然给出了合理的回答。由此反证了记忆对确定因果关系实际是正面作用，除非曾经依据错误数据训练；即便在偶有错误因果记忆出现的特例中，随着联网插件出现，错误记忆对这类因果关系的判断的影响也是可纠正的。对于第二个问题我们任意给定一组跨多学科领域的抽象概念让该模型进行配对，即让系统自已确定哪两个变量之间可能形成因果对。以下是对GPT4的测试和给出的答案：着联网插件出现，错误记忆对这类因果关系的判断的影响也是可纠正的对于第二个问

24、题我们任意给定一组跨多学科领域的抽象概念让该模型进行配对，即让统自已确定哪两个变量之间可能形成因果对。以下是对GPT4的测试和给出的答案：User：你是多领域专家，尤其擅长发现因果相关。请把以下多领域的概念中具有因果联系的对找出来，然后按格式“原因/结果给出来，并把剩余的概念单独列出：人的年龄、鱼的食量、温度高低、质变、嫉妒、成绩提高、亚里士多德的质料因、康德的先验、超验、芭蕉叶响、愤怒、夜雨、量变、人的身高、人的个性天生、气球的体积、分子大小、电动车的速度、重力大小、圆的面积、圆周率、兴趣、书法练习、钢琴练习、体重、两性之间的吸引力、王羲之的兰亭序ChatGPT:因果对:温度高低鱼的食量：

25、研究显示，水温的变化可以影响鱼的新陈代谢速度，进而影响鱼的食量。成绩提高书法练习：虽然看似无直接关系，但是书法练习可以提高个人的专注力和耐心，这些能力可以转化为学习能力，从而提高成绩。钢琴练习兴趣：对钢琴的兴趣可能导致对钢琴的更多练习，反之，钢琴的练习也可能增加对钢琴的兴趣。亚里士多德的质料因康德的先验：亚里士多德的质料因（物质的实质）是康德的先验（不依赖经验的认知）的基础，因为先验认知需要某种物质基础。量变质变：这是马克思主义的重要观点，认为量的变化积累到一定程度，就会引发质的变化。人的身高体重：一般来说，人的身高与体重存在一定的相关性，身高较高的人往往体重较重。气球的体积分子大小：气球内部

26、的分子大小影响气压和气体的密度，进而影响气球的体积电动车的速度/重力大小：重力的大小会影响电动车的下坡或上坡速度。圆的面积圆周率：圆的面积与圆周率（元和半径的平方有直接的数学关系，面积=元*r2两性之间的吸引力/嫉妒：两性之间的吸引力可能会引发一方的嫉妒情绪。剩余的概念：人的年龄、超验、芭蕉叶响、愤怒、夜雨、人的个性天生、王羲之的兰亭序请注意，虽然我尽力找出了可能的因果关系，但这些关系可能需要进一步的实证研究来证实。不同的人或情境可能会有不同的因果关系对康德的先验的回答不太合哲学界的共识，“夜雨”与“芭蕉叶响”也可能存在因果关联，系统在此表现出来缺陷，同时也展示了远超纯数据方法配对因果的能力。

27、33非图宾根基准下LLMChatGPT的因果发现和因果推理能力邱德钧三、因果效应估计中大语言模型的意外作用因果效应估计是研究成熟的领域，也是复杂的领域。在这里最终的目的是利用A/B实验的黄金评价标准，给出是否具有因果关系的结论。但要达到此目的之前，需要满足一系列先验的条件。这些条件有认知、哲学上的假设作为大前提，也有研究者对实验组的控制、组织，以及一系列的实验条件下费用和伦理约束问题，尤其复杂的是当参与实验的是人类个体时，异质性更是造成了下一步因果估计的巨大障碍。LLM有没有可能有助于先前成熟的估计方法在倾向得分、匹配森林中弥补数据不足？在模型建模、回归、因果树、元学习中自动辅助？甚至在建模时

28、解析因果机制从而给出更有益的算法？在自然实验而非数据实验中发现人工难以发现的差距？埃姆雷基西曼认为“推断实际因果关系问题的正式因果模型一直在努力将判断实际因果关系时依赖的许多常识背景知识元素正式化（Halpern，2 0 16;Ic a r d 等人，2 0 17；Knobe，2003;Henne等人，2 0 17）。我们认为，LLM可以直接用自然语言处理这些背景概念，避开将它们塞进正式模型的挑战。BIG-Bench因果判断数据集（Suzgun等人，2 0 2 2）是测试LLM回答实际因果关系问题能力的理想选择。相对于其他基准的快速饱和,LLM在这个基准上的表现不如人类的最佳表现。然而，回答这

29、些类型的问题需要重新考虑常识性的背景知识概念，如必要性、充分性和规范性。我们的分析表明,LLM在回答关于这些基本要素的问题时，比直接回答高层次的实际因果判断问题要好。一个有前途的研究方向是开发一些方法，引导LLM使用这些实际因果关系的基本要素来回答更高层次的实际因果判断问题，也许可以用实际因果关系理论作为指导。”这一结论作者没有在文中进行充分论证。限于篇幅，我们在这里不构建专门的因果估计基准库的准确评测实验，留待进一步研究进行，而是从以上四个角度以实例来考察GPT4的因果估计中对人类的辅助能力。我们首先针对倾向得分匹配来考察。假设A和B没有因果关系，但是因为它们有共同原因C,从而使两者表现出相

30、关性AB,其中C表示A和B的混杂因素,混杂因素造成的相关称为混杂偏差。如果我们想要得到A对B的因果效应，就必须消除混杂因素C的影响。倾向得分匹配就是消除混杂因素的方法，在此例中最简单的就是选取两组数据，T1组没有随身带打火机，T2组随身带打火机。以T2组用户特征为条件，比如可能包括年龄、性别、是否有抽烟习惯等混杂因素，从T1T2组找出匹配的用户，让最终的两组的混杂因素分布近乎一致。要想实现各混杂因素（特征)分布近乎一致，首先需要提取特征，将若干特征降维成倾向得分。现在的问题是，我们想要消除两个人群之间的不同质，让两个人群之间可以比较，对于专家这不是难题，但借助GPT的帮助，一般的从业人员能获得

31、详细的帮助：User：你是因果问题专家，请提供帮助，帮我建模以下问题：想要评估某种新药对降低血糖水平的效果时，需要使用回归模型进行倾向性得分估算。假设收集Emre Kiciman,Robert Ness,Amit Sharma,et al.,Causal Reasoning and Large Language Models:Opening a New Frontier for Cau-sality”342023年第3期科學经濟社會到了以下变量：干预变量：是否接受新药（1表示接受，0 表示未接受）；结果变量：血糖水平（连续变量)；混淆变量：性别、年龄、BMI、糖尿病类型、病程等。1ChatGP

32、T：为了评估新药对降低血糖水平的效果，我们可以使用倾向性得分匹配（PropensityScoreMatching，PSM）方法，然后再进行回归分析。以下是建模的一种可能步骤：1.倾向性得分估算：倾向性得分是一种平衡观察性研究中的处理组和对照组的方法，其目的是模拟一个随机试验的情况。在这个案例中，倾向性得分是接受新药的概率，可以通过对干预变量（是否接受新药）和所有已知的混淆变量（性别、年龄、BMI、糖尿病类型、病程等）进行logistic回归得到。2.倾向性得分匹配：通过倾向性得分，将接受新药的个体和未接受新药但倾向性得分相近的个体进行匹配，形成匹配对。这样可以尽可能地减少因混淆变量带来的偏差。

33、3.回归分析：在进行了倾向性得分匹配后，我们可以对匹配的数据进行回归分析。这时的回归模型可以是线性回归，其中因变量是血糖水平，自变量是是否接受新药以及其他可能影响血糖水平的控制变量（如性别、年龄、BMI等）。线性回归模型可以表示为：血糖水平=O+1*是否接受新药+2*性别+3*年龄+4*BMI+8其中，O是截距，1是新药对血糖水平的影响（我们关心的参数）,2，3，4等是其他控制变量的系数，8 是误差项。4.模型评估与解释：在拟合回归模型后，我们需要检查模型的拟合程度和模型假设（例如线性关系、误差正态性等）。如果模型拟合良好，我们可以对新药对血糖水平的影响进行解释。在这种情况下，1的估计值表示在

34、控制其他变量不变的情况下，接受新药治疗与否对血糖水平的平均影响。结果呈现与讨论：最后，我们需要以适当的方式呈现和讨论结果，包括估计的效果大小（例如新药对血糖水平的平均影响）、统计显著性以及对结果的解释。此外，还需要讨论潜在的局限性和进一步研究的可能方向。通过以上步骤，我们可以评估新药对降低血糖水平的效果，并在一定程度上减少因混淆变量带来的偏差。假设在匹配数据时，我们观察的只有一个组，没有对照组，此时LLM是否会发挥作用？若答案是肯定的，将十分有利于日常因果发现，我们以一道著名的题去除部分条件测试：User：你是因果推理专家。一农场养了10 0 只鸡，长期喂食精白米，全部鸡都得一种病，脚无力。我

35、们只能观察，没时间和经费实验。请你补充匹配一个对照组，找寻鸡得病的原因。ChatGPT：在进行因果推理时，我们通常需要构建一个“实验组”和“对照组”。实验组是我们对其进行某种处理或干预的对象，而对照组则不接受这种处理或干预，但在其他所有条件下，应与实验组尽可能相同。这样做的目的是35非图宾根基准下LLMChatGPT的因果发现和因果推理能力邱德钧帮助我们了解如果没有进行特定的处理或干预，情况会是怎样的。在你的例子中，实验组是那些被喂食精白米的鸡。我们假设，这种喂食方式可能是导致鸡脚无力的原因。为了测试这个假设，我们需要构建一个在所有其他条件（如鸡的年龄、品种、养殖环境等）下都与实验组相同，但不

36、被喂食精白米的对照组。这种设想的依据是：如果实验组和对照组之间的唯一区别是饲料，那么我们可以更有信心地认为，任何两组之间在鸡的脚无力情况上的差异，都可能是由于饲料的差异引起的。如果我们观察到喂食精白米的鸡（实验组）比不喂食精白米的鸡（对照组）更容易出现脚无力，那么这就支持了我们的假设：长期喂食精白米可能是导致鸡脚无力的原因。然而，这种方法的一个限制是，即使所有其他已知条件都相同，也可能还有一些未知的、未控制的变量存在差异。例如，即使两个农场的鸡的年龄和品种相同，但它们的遗传背景可能有所不同，或者两个农场的微生物环境可能有所不同，这些因素都可能影响鸡的健康状况。因此，虽然我们可以通过这种方式得到

37、初步的因果推论，但我们需要谨慎解释结果，并可能需要更多的证据来支持我们的结论。理想情况下，我们会进行随机控制实验来验证我们的假设，但如果实验不可行，我们可以采用几种不同的方法来寻找更多的证据：观察性研究：虽然不能进行实验，但我们可以尝试收集更多的数据，包括其他农场的数据，这些农场可能使用不同的饲料。我们可以比较使用精白米和其他类型饲料的农场之间的差异。文献研究：我们可以查阅科学文献，看看是否有其他研究已经探讨了类似的问题。如果已有研究显示精白米饲料可能导致鸡的脚无力，那么这将是对我们假设的支持。专家咨询：我们可以咨询兽医或者动物营养学家，他们可能能提供关于鸡的饲料和鸡的健康之间关系的专业见解。

38、类比推理：如果在其他动物中，长期食用精白米已经被证实可以导致类似的健康问题，那么这可能支持我们的假设。机理研究：我们可以研究精白米的营养成分，看看是否有可能缺乏某种对鸡脚力量维持重要的营养素,或者是否含有可能对鸡的健康产生不利影响的成分。这些方法都有各自的局限性，但如果多种方法的结果都支持我们的假设，那么我们对假设的信心就会增强。这些常识性的因果问题显然LLM十分驾轻就熟。面对因果难题，例如CATE（条件平均因果效应)到ITE(个体因果效应)推广，它是否能有创新性的有益建议？当问到一种药物疗效已经通过RCT实验，当干预组里有可能存在无效的个体，把总体效应应用于每个个体就遇到了困难。系统回答除开

39、建议子组分析（如果有假设认为药物在不同的参与者子组中可能会有不同的效果例如,基于年龄、性别、疾病严重程度等,这可以通过子组分析来检查。然而,这些分析应该是预先指定的，并且由于假阳性发现的风险，需要谨慎解读)外，并没有创新性的回答。因此，它目前仍然只是辅助工具。特别要注意的是，珀尔最近测试了以下问题：“考虑362023年第3期科學经濟社會有两枚硬币和一个铃铛，每当任意硬币正面朝上时，铃铛就会响起。现在已知铃铛响起，问此时两枚硬币之间的相关性如何？系统给出了相关性为1/3的答案，显然不明白对撞机制，尤其是在另一位学者纳西姆拉哈曼（NasimRahaman）测试该问题时，系统给出了3/4的答案，珀尔

40、再次测试时又给出了1/2 的答案。这一事实表明LLM并不稳定，需要使用者多加注意。四、结论LLMChatGPT提供了新的研究因果关系的范式，在因果发现中有了获取领域知识的途径，而这些知识在以前只能通过人类领域专家获得。LLMChatGPT提供这种领域知识可以是隐含的，但却是自动的，辅以一定的提示工程，天然地将因果发现中的背景知识嵌入熟悉的统计方法中,这是其一。其二，LLMChatGPT为进行因果分析提供了一个灵活的、基于自然语言的交互界面，而非特定的编程语言，这种改变有革命性的意义，会带动因果关系研究和应用的普及，如何高估这一变化的作用都不为过。其三,LLMChatGPT提供了一种新的能力，使

41、我们可以处理自然语言中广泛使用的抽象概念之间的因果关系，这在以前是十分困难的，并实际上造成了以前因果问题关注点热门领域只集中在医学、心理分析等领域，而新的能力则会带来应用范围的快速扩展以上结论中，重要的是要认识到，人类的领域知识或说预置的先验一直是因果分析中的一个核心，而先验知识总会显式或隐式地包含在语言中作为特殊的信息传递，我们发现LLM可以通过模仿领域知识来提供价值，因为它是在大量的人类生成的文本上训练出来的。这种模仿是一个复杂的训练过程的结果，所以它是无法直观解释的，难能可贵的是，更大的模型可以解释较小的模型，这一研究将会增强我们未来使用大语言模型开展因果关系研究的信心。Ju d e a

42、 Pe a r l,2 0 2 3-0 5-0 6,h t t p s:/t w i t t e r.c o m/y u d a p e a r l/s t a t u s/16 547 6 56 2 10 18 7 8 7 8 40.37非图宾根基准下LLMChatGPT的因果发现和因果推理能力邱德钧附录：两个变量的因果关系对（人文社会科学)基准库（兰州大学哲学社会学院邱德钧创建，中国兰州）两个变量的因果关系对（人文社会科学）因果关系数据库变量1变量2数据集因果关系及方向pairo001沈从文的城市书写乡村出身的自卑心理文学pair0002洋脚传入成都顾天成迎娶蔡大嫂文学-pair0003美

43、国随胎法案被废正发生获夏纳大奖电影艺术-pair0004周作人附逆兄弟反目文学史-pairo005孙悟空大闹天宫唐三藏西天取经文学pair0006庄生晓梦迷蝴蝶望帝春心托杜鹃中国哲学-pair0007大道废有仁义中国哲学-pairo008有德有信中国哲学pair0009守礼社会和谐中国哲学-pairo010阴阳中国哲学pairoo11天与地卑山与泽平中国哲学pair0012青春期叛逆父母外出务工社会学pair0013独生子女死亡隔代抚养社会学pair0016乡村振兴福利依赖社会学-pair0017洗手液感冒治疗社会学-pairo018艾滋病公共卫生社会学-pair0019冰淇淋销量溺水社会学p

44、air0020野生动物数量多人口出生率社会学-pair0021亲密关系里的暴力婚姻破裂社会学pair0022移民文化适应社会学-pair0023新入职受歧视社会学-pair0024异国观光地域歧视社会学-pair0025网络广告消费行为社会学-pair0026交友app自我认同社会学-pair0027环境问题个人生活社会学-pair0028少子化养老困境社会学-pair0029漫画产业旅游热点社会学pair0030社会文化纹身社会学-pair0031老龄化老人驾驶者增多社会学-pair0032女性受教育程度社会角色变化社会学-pair0033历史文化传统核心家庭转变社会学-pair0034监狱

45、囚犯教育囚犯未来生活的改变社会学-pair0035社会规范个人日常生活社会学pair0036工作与生活的平衡个人社会学-pair0037大学生志愿者活动大学生成长社会学-pair0038榜样成长影响社会学-pair0039性取向同性婚姻社会学-pair0040父母成长社会学382023年第3期科學经濟社會续表变量1变量2数据集因果关系及方向pair0041身高恋爱的年龄社会学-pair0042复习时间长考试成绩高社会学pair0043城市道路多交通顺畅交通pair0044经历寒彻骨闻得梅花香文学-pair0045量变质变哲学-pair0046地域语言不同语言学-pair0047信仰民族宗教-p

46、air0048降低任务执行的效率和质量多任务处理认知科学pair0049提高创造性思维积极的情绪认知科学pairo050社会影响个体的决策和行为认知科学pair0051决策能力和学习效率压力和焦虑认知科学pair0052注意力的分配和信息的处理认知负荷的增加认知科学pair0053思维方式和世界的理解语言的使用认知科学pair0054情境的变化记忆的提取认知科学pair0055问题解决的策略和能力经验的积累认知科学pair0056记忆的巩固和学习效率睡眠质量认知科学pair0057逻辑推理和决策证据的呈现方式逻辑学pair0058决策的错误和偏见逻辑谬误逻辑学pair0059逻辑表达的精确性和

47、清晰性逻辑符号的使用逻辑学pair0060精神集中力和内心平静禅定的修行佛学pairo061减少物欲和心灵的困扰禁欲生活的实践佛学pair0062改变了命运雅各争得长子名分宗教学-pair0063产生了以色列民族以色列人出埃及宗教学pair0065四大皆空对世间事物的超脱宗教学-pair0066佛教寺院的建立提供信仰和精神的护所宗教学-pair0067十诚的遵守指导信徒的道德行为和生活方式宗教学-pair0068提供精神支持和安慰祈祷宗教学形成宗教哲学和信仰的pair0069神学的哲学研究宗教学pair0071神学的科学研究宗教与科学的关系和对话宗教学pair0072禁欲生活减少物欲和心灵的困

48、扰宗教学重视商业行为的道德pair0073商业伦理学的发展伦理学-规范和责任推动了对行为后果而非动机的pair0074功利主义的提出伦理学伦理评价pair0075艺术形式的多元化和非具象化抽象表现主义的出现美学青少年怀孕和性传播疾病的pair0077性教育的普及公共卫生pair0079降低抗生素耐药性的发展对公众抗生素使用的教育公共卫生39责任编校：韩慧云）Lanzhou730000.ChinaSchool of Philosophy and Sociology,Lanzhou UniversityNo.3,2023SCIENCEECONOMYSOCIETYVol.41,Total No.17

49、42023年第3期第41卷总第17 4期科學经濟社會续表变量1变量2数据集因果关系及方向pair0082良好的医疗服务降低儿童和母亲的死亡率公共卫生pair0083道路村村通工程乡村常住人口减少社会学-pair0084提高农产品价格统一集贸市场社会学pair0086物体疏松多孔保温性能物理学pair0087酒精滥用的防治酒精相关疾病和伤害的减少公共卫生-pair0088烟草控制肺癌和其他疾病的发病率降低公共卫生pair0089呼吸道疾病的发病率空气质量公共卫生pair0090水源性疾病的发病率污染水源公共卫生pair0092员工的适应能力和生产力技能和知识更新管理学pair0094针对NLP训

50、练GPT生成文案计算机-pair0095长文本理解力总结复杂内容计算机-pair0096实验和尝试超级智能认知科学-pair0097对假说的现实回应理论的意义认知科学-pair0098观察发现可能的因果认知科学-pair0099拉近人际关系礼物社会学-pairo100从众效应思维的倾向性社会学-pairo101记忆和经历决策时信息的权重增加认知科学pair0102善于发现美热爱世界认知科学注：本数据库参考图宾根基准创建，其中大部分变量都是高维的，这是人文社会科学相对于物理、生物等学科的特点引用本数据库请标明出自本文。Causal Discovery and Causal Inference o