Analyzing Unstructured Text with High-Level Concepts Using LLooM (2024)

Michelle S. Lam0000-0002-3448-5961Stanford UniversityStanfordCAUSAmlam4@cs.stanford.edu, Janice Teoh0009-0002-7550-7300Stanford UniversityStanfordCAUSAjteoh2@stanford.edu, James A. Landay0000-0003-1520-8894Stanford UniversityStanfordCAUSAlanday@stanford.edu, Jeffrey Heer0000-0002-6175-1655University of WashingtonSeattleWAUSAjheer@uw.edu and Michael S. Bernstein0000-0001-8020-9434Stanford UniversityStanfordCAUSAmsb@cs.stanford.edu

(2024)

摘要。

数据分析师长期以来一直致力于将非结构化文本数据转化为有意义的概念。虽然很常见，但主题建模和聚类侧重于较低级别的关键字，并且需要大量的解释工作。我们引入了概念归纳，这是一个计算过程，它从非结构化文本中生成由显式包含标准定义的高级概念。对于有毒在线评论数据集，其中最先进的 BERTopic 模型输出“女性、权力、女性”，概念归纳产生高级概念，例如“对传统性别角色的批评”和“消除女性的担忧” ”。我们提出了 LLooM，一种概念归纳算法，它利用大型语言模型迭代地合成采样文本，并提出人类可解释的、不断增强通用性的概念。然后，我们在混合主动文本分析工具中实例化 LLooM，使分析师能够将注意力从解释主题转移到参与理论驱动的分析。通过技术评估和从文献综述到内容审核的四种分析场景，我们发现LLooM的概念在质量和数据覆盖方面改进了主题模型的现有技术。在专家案例研究中，LLooM 帮助研究人员甚至从熟悉的数据集中发现新的见解，例如，通过在政治社交媒体数据集中提出一个以前未被注意到的攻击党外立场的概念。

非结构化文本分析、主题建模、人机交互、大语言模型、数据可视化

^†^†journalyear: 2024^†^†copyright: acmlicensed^†^†conference: Proceedings of the CHI Conference on Human Factors in Computing Systems; May 11–16, 2024; Honolulu, HI, USA^†^†booktitle: Proceedings of the CHI Conference on Human Factors in Computing Systems (CHI ’24), May 11–16, 2024, Honolulu, HI, USA^†^†doi: 10.1145/3613904.3642830^†^†isbn: 979-8-4007-0330-0/24/05^†^†ccs: Human-centered computing Human computer interaction (HCI)^†^†ccs: Human-centered computing Interactive systems and tools^†^†ccs: Computing methodologies Artificial intelligence^†^†ccs: Human-centered computing Visualization systems and tools^†^†ccs: Computing methodologies Natural language processing

Analyzing Unstructured Text with High-Level Concepts Using LLooM (1)

1. 介绍

世界上的大部分信息都存在于非结构化文本中，但理解这些数据却具有挑战性。主题建模算法（例如潜在狄利克雷分配 (LDA) 和基于语言模型嵌入的无监督聚类（例如 BERTopic））已成为涉水处理大规模非结构化数据的普遍工具（Blei 等人，2003 年；Reimers 和 Gurevych），2019）。主题模型扩展到社会科学和医学等领域，产生了深远的影响：研究人员利用这些模型来分析科学摘要、社交媒体内容和历史报纸报道，以调查科学研究趋势、政治两极分化等现象。公共卫生措施和媒体框架（Griffiths 和 Steyvers，2004；Ramage 等人，2010；DiMaggio 等人，2013；Demszky 等人，2019；Tsur 等人，2015；Paul 和 Dredze，2011）。

然而，这些模型产生的主题是相对于低级文本信号（例如关键字）来定义的，需要分析师付出大量努力，他们必须解释、验证和推理这些主题。例如，当应用于厌恶女性的社交媒体帖子数据集时，最先进的 BERTopic 模型会产生有能力但低级别的主题，例如“女性、权力、女性”和“女权主义者、女权主义、女权主义者”，切中主题，但过于笼统，无法帮助分析师回答“如何描述掌权女性？”等问题。以及“针对女权主义者提出了什么样的论据？”出现这种差距的原因是主题模型依赖于术语共现或嵌入距离的测量，这些测量与低水平的文本相似性高度相关，并且通常是人类判断的不可靠代理（Hellrich 和 Hahn，2016；Zhou 等人， 2022；李等人，2020）。此外，主题模型经常产生过于笼统、过于具体或一般不连贯的主题（“垃圾”主题，例如“早上，打鼾，先生”）（Chuang 等人，2013；AlSumait 等人， 2009）。当输入文本被分类为无信息组时，分析师缺乏追索权。分析师必须执行的任务（生成研究问题、提出假设和产生见解）取决于高级概念的创建，我们将其定义为由明确的定义的人类可解释的描述纳入标准。

在本文中，我们介绍了概念归纳，即从非结构化文本中提取高级概念以放大理论驱动的数据分析的任务。例如，考虑到 BERTopic 模型标记为“女性、权力、女性”和“女权主义者、女权主义、女权主义者”的潜在厌恶女性的社交媒体帖子的相同数据集，概念归纳旨在识别诸如“对传统性别角色的批评”等概念。和“消除妇女的担忧”。每个概念都由自然语言的详细标准定义：例如，“这个例子是否批评或挑战传统的性别角色或期望？”或“这个例子是否消除或否定了女性的恐惧、担忧或经历？”。这些定义标准由一组代表性文本示例支持，这些示例最好地展示了概念的想法，以及范围从 0 到 1 的概念分数，表明数据集中的每个示例与该概念的一致程度（图 1

为了实现这些结果，我们开发了一种名为 LLooM 的概念归纳算法，它利用 GPT-3.5 和 GPT-4 等大型语言模型 (大语言模型) 的能力(OpenAI, 2023) 进行泛化来自示例：LLooM 对提取的文本进行采样，并迭代地综合所提出的概念，以增强通用性（图2)。一旦数据被综合成一个概念，我们就可以进入下一个抽象层次；通过以概念作为输入重复该过程，我们可以将较小的、较低级别的概念概括为更广泛的、较高级别的概念。由于概念包含明确的包含标准，因此我们可以扩展任何生成概念的范围，以通过相同的镜头一致地对新数据进行分类，并发现当前概念集中的差距。这些综合、分类和抽象的核心功能使 LLooM 能够迭代地生成概念，将它们应用回数据，并向上冒泡到更高级别的概念。

我们的算法在我们称为 LLooM Workbench 的混合主动文本分析工具中实例化，通过根据可解释的高级概念自动可视化数据集来放大分析师的工作。LLooM 工作台还为分析师提供了可追踪且可延展的流程。每个提取的概念不仅仅是一个最终标签，而且可以展开为导致该概念的较低级别子概念的可审计跟踪（例如，“女性的责任”、“传统性别角色”和“权力动态和女性”）导致了“对传统性别角色的批评”概念），其中每个子概念再次与可审查的标准和代表性示例配对。此外，分析师可以使用 LLooM Workbench 为算法提供种子，将其注意力转向特定概念。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (2)

通过一系列四个分析场景，我们首先通过将 LLooM 与最先进的 BERTopic 模型进行比较来说明 LLooM 在实践中的工作原理。这些场景涵盖了各种领域和分析目标：使用有毒在线内容数据集进行内容审核任务（Kumar 等人，2021），对社交媒体上的党派敌意进行政治社会分析媒体内容数据集（贾等人，2024），通过过去30年的论文摘要分析人机交互领域的行业影响的文献综述（曹等人，2023） t2>，并使用 NeurIPS 2020 的更广泛影响陈述数据集对人工智能研究的预期后果进行分析（Nanayakkara 等人，2021）。在这些场景中，LLooM 不仅涵盖了 BERTopic 呈现的大部分主题，而且提供了平均 $2.0$ 倍数量的高质量主题。此外，基于集群的主题模型很难处理大量未分类的示例（平均 $77.7\%$ 覆盖率），但 LLooM 概念平均覆盖 $93\%$ 个示例。

然后，在一组技术评估中，我们将 LLooM 与零样本 GPT-4 变体和真实世界和合成数据集的 BERTopic 进行基准测试；我们发现 LLooM 比基线方法提供了性能提升。对于基线方法难以处理的看不见的数据集 ( $p<.02$ ) 和微妙的概念 ( $p<.0001$ )，这些好处尤其明显；在这些情况下，LLooM 分别将真实概念覆盖率提高了至少 17.9% 和 16.0%。虽然 LLooM 和 GPT-4 都可以生成总体的、摘要式的概念，但 LLooM 还能够生成细致入微且基础的概念，分析师可以利用这些概念来更丰富地描述数据模式。在专家案例研究中，我们还为两个分析场景的原始研究人员提供了访问 LLooM 的权限，以重新分析他们的数据。研究人员使用 LLooM Workbench 交互式地引导概念并启动理论驱动的探索（例如，针对那些将危机归咎于政策的内容，完善“政策相关”社交媒体帖子的概念，或者借鉴领域知识添加了“社会不信任”的新概念，定义为“对他人或社会的不信任”）。

LLooM 实例化了一种新颖的数据分析方法，使分析师能够根据概念查看和探索数据，而不是筛选模型参数。通过将非结构化数据转换为分析师可以理解和控制的高级概念，LLooM 可以帮助分析师得出新的见解、编织联系并形成由输入数据支持的叙事挂毯。本文介绍了以下贡献：

•
LLooM 算法。我们引入了 LLooM，这是一种概念归纳算法，可以提取并应用概念来理解非结构化文本数据集。 LLooM 利用大型语言模型来合成采样文本范围，生成由显式标准定义的概念，将概念应用回数据，并迭代推广到更高级别的概念。
•
LLooM 工作台。我们在 LLooM Workbench 中实例化了 LLooM 算法，LLooM Workbench 是一种文本分析工具，允许用户根据高级概念可视化文本数据并与之交互，从而放大理论驱动的数据分析。该工具可在计算笔记本或独立的 Python 包中使用。¹¹1Code available at https://github.com/michelle123lam/lloom
•
通过分析场景、技术评估和专家案例研究进行评估。我们提出了四种分析场景和一项技术评估，展示了 LLooM 如何使分析师能够从超越现有工具的数据中获取见解。 LLooM 改进了主题模型的质量和覆盖范围，并帮助专家分析师即使在熟悉的数据集上也能发现新颖的见解。

2. 相关工作

为了实例化一种以概念为中心的方法来理解数据并与数据交互，LLooM 借鉴了主题建模和无监督聚类、定性分析和混合主动数据分析工具方面的先前文献。

2.1. 主题建模和聚类：自动化概念开发

大量重要信息以大型非结构化文本数据集的形式存在——全球社交媒体帖子、历史文档语料库、模型生成的输出的大量日志——但理解此类数据具有挑战性。如今，许多数据分析师依靠主题建模和无监督聚类来自动总结或探索数据。潜在狄利克雷分配（LDA）是一种经典的主题建模方法，将文档表示为主题的分布，将主题表示为单词的分布，并根据文档中单词的共现生成潜在主题（Blei等人，2003））。虽然易于应用，但 LDA 的一个长期存在的问题是其主题可能与分析师不连贯或不相关（Chuang 等人，2013；AlSumait 等人，2009；Chang 等人，2009）。此外，它的词袋（或低维 n 元语法）假设将主题限制为可以用关键字捕获的更简单的想法。

最近的方法对高维向量嵌入执行无监督聚类，以发现潜在主题，而无需直接依赖关键字。 BERTopic (Grootendorst, 2020) 等热门软件包简化了嵌入文本数据的通用流程（例如，使用 BERT (Devlin 等人，2018 年；Reimers 和 Gurevych，2019 年）等预训练模型))，执行降维，并应用聚类算法（例如，k-means、凝聚聚类、HDBSCAN（McInnes and Healy，2017）)来恢复基于相似示例的组距离度量。无监督聚类放松了从主题到关键词的映射，但由于嵌入距离仍然与低级文本相似性而不是人类对语义相似性的判断高度相关，因此产生的主题经常与表面层特征对齐（Hellrich and Hahn，2016；李等人，2020）。虽然当今的主题模型基于自动化指标表现出高性能，但最近的工作强调这些指标可能与人类对主题质量的真实评估严重不一致（Hoyle 等人，2022，2021） - 仍然存在自动生成的主题和有意义的解释之间存在重大差距。LLooM 通过支持数据分析师从非结构化文本中提取可解释的高级概念的工作流程来解决这一差距。

2.2. 定性分析：手动概念开发

与常见的机器学习方法相比，定性分析方法长期以来承认数据解释是多种多样的、主观的，并且高度依赖于分析目标（Baumer等人，2017；Muller等人，2016）。定性编码过程，例如扎根理论方法，让研究人员手动审查和解释数据，通常从逐行、较低级别的摘要开始，然后进行多轮主题分组和解释。合成为代码（Muller，2014；Charmaz，2006）。一旦代码被合成，它们就会在“不断比较”的过程中应用回数据，这既阐明了数据，又测试了当前代码的稳健性和丰富性。这些合成代码还可以作为每一轮连续编码的输入，以获得更广泛、更抽象的见解。LLooM 算法从定性编码过程中汲取灵感，寻求将迭代解释、代码开发和细化的优势引入自动化数据分析工具。

鉴于进行定性分析涉及大量劳动力，研究人员探索了使用人工智能来帮助定性分析人员进行归纳编码（从数据生成代码）和演绎编码（将代码应用回数据）的算法系统（Rietz 和 Maedche， 2021；德鲁哈德等人，2017；陈等人，2018a)。最近，大语言模型和定性分析交叉点的研究集中在放大演绎编码过程，发现大语言模型在使用现有密码本对数据进行编码方面表现相当好，但不足以完全依赖（Ziems等人，2024；肖等人，2023）。与此同时，旨在辅助归纳编码的新颖系统，例如 PaTAT （Gebreegziabher 等人，2023）和 Scholastic （Hong 等人，2022），已经探索了人类的机会人工智能协作将归纳代码生成工作交给人类分析师，并利用人工智能来采样和重新组织数据或将主题形式化为决策规则。我们在此工作的基础上增强了寻求从数据中提取有意义的高级概念的分析师的能力。然而，LLooM 调查了人工智能发起概念生成的选项是否可以进一步扩展分析师的工作，作为思考工具来反思更广泛的潜在数据分析方向。

2.3. 人工智能辅助数据分析：混合主动概念开发

我们的工作建立在大量混合主动方法的基础上来帮助数据分析，我们特别提请注意之前的工作，这些工作同样寻求从数据中提取人类可解释的概念。主题建模工作调查了社会科学家和数据分析师在使用主题模型时遇到的挑战，例如技术障碍、可解释性和信任（Chuang 等人，2012b；Ramage 等人，2009；Baumer 等人，2017 ）。面对难以解释的主题，研究人员发现 Termite、LDAvis、Semantic Concept Spaces 等交互式视觉分析系统可以帮助分析人员识别连贯的主题并建立对主题模型的信任（Chuang 等人，2012a；Sievert 和 Shirley），2014；Chang 等人，2014；El-Assady 等人，2019）。类似地，LLooM 使分析师能够可视化和迭代模型输出，以促进可解释性和信任。

除了主题建模之外，人机交互和人工智能交叉领域的工作还通过将技术抽象与用户可理解的概念结合起来，帮助数据理解。交互式机器学习工具，例如FeatureInsight （Brooks等人，2015）和AnchorViz （Chen等人，2018b）帮助用户构建基于字典或基于示例的概念来探索数据并提高分类器性能。模型草图利用大语言模型，让机器学习从业者通过编写人类可理解的概念来创建类似草图的模型（Lam 等人，2023）。GANzilla （Evirgen 和 Chen，2022）和 Sensecape （Suh 等人，2023）等系统通过将输出组织成对用户有意义的概念分组，支持使用生成模型进行意义建构，例如系统提供的图像编辑方向或用户策划的分层画布。在统计数据分析中，像 Tisane (Jun 等人, 2022b) 这样的系统通过允许分析师迭代来帮助经常被忽视的假设形式化过程 (Jun 等人, 2022a)在概念假设和模型实现之间来回切换。

与此同时，NLP 最近的工作探索了大语言模型如何通过提出聚类的自然语言解释来辅助文本分析（Wang 等人，2023），增强半监督文本聚类的专家演示 (Viswanathan 等人, 2023)，或生成并分配可解释的主题(Pham 等人, 2023)。LLooM 的目标是围绕人类可理解的概念进行数据分析，但对数据的要求、范围和应用采取了更强硬的立场。提取的概念。为了对形成假设和回答研究问题的数据分析任务最有用，我们需要通过人类可理解的描述和明确的纳入标准来定义概念。为了支持对文本的丰富理解，LLooM 算法不仅产生广泛的主题级模式范围内的概念，还产生细致入微的特定文本属性。最后，虽然文本聚类和主题建模的任务侧重于生成输出以帮助数据解释，但 LLooM 工作台将概念实例化为双向表示，它们都充当输出模态解释数据和输入模式，以主动创作概念并调查新的研究问题。

3. LLooM：使用大型语言模型进行概念归纳

我们将概念归纳定义为将非结构化文本数据集作为输入，并将一组新出现的高级概念作为输出的过程，其中每个概念都由明确的标准定义。我们首先描述 LLooM，这是一种概念归纳算法，它利用大型语言模型从原始数据中迭代地提取和合成概念。然后，我们介绍了 LLooM Workbench，这是一种文本分析工具，它使用 LLooM 算法使分析师能够从文本数据生成、可视化和细化高级概念。

3.1. LLoOM 算法

LLooM 算法通过使用大型语言模型（大语言模型）执行概念生成和评分的迭代轮次来执行概念归纳。我们在实现中专门使用 GPT-3.5 和 GPT-4。如图3所示，我们算法的主要目标是执行从低级文本信号到高级概念的桥梁的关键合成步骤，我们将其定义为由明确的包含标准定义的人类可解释的描述，特别是关于输入是否与概念匹配的决策规则的自然语言描述。使用以前的方法，分析人员必须执行从低级文本信号到高级概念本身的关键桥接工作；大语言模型为这一步提供帮助。

首先，对于概念生成步骤，LLooM 实现了操作符提示大语言模型从提供的示例中进行归纳，以生成自然语言的概念描述和标准。正如我们在技术评估中凭经验证明的那样（§5)，直接促使像 GPT-4 这样的大语言模型执行这种综合会产生广泛的、通用的概念，而不是细致入微和具体的概念联系（例如，，一组帖子与女权主义相关，而不是它们都构成男性对女权主义的批评)。虽然通用概念可能有助于对数据进行总体总结，但分析师寻求更丰富、更具体的概念来描述数据中的细微差别模式，正如我们的专家案例研究所支持的那样 (§6)。此外，对于超过大语言模型上下文窗口的文本数据集，这种合成是不可能的。

为了解决这些问题，LLooM 算法包括两个有助于数据大小和概念质量的运算符：(1) 运算符，它将数据分片并缩小到上下文窗口，同时保留显着的细节，以及（2）运算符，它将这些碎片重新组合成具有足够有意义的重叠的分组，以从大语言模型中引入有意义的而不是表面级的概念。

最后，对于概念评分步骤，我们利用大语言模型的零样本推理能力来实现通过应用零样本提示表示的概念标准来标记数据示例的运算符。通过这些标签，我们可以根据生成的概念可视化完整数据集，或者通过循环回到概念生成来进一步迭代概念。现在我们详细介绍一下 LLooM 算法。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (3)

3.1.1. 概念生成

我们的概念归纳算法的关键是Synthesize运算符，它利用大语言模型的功能来综合示例集之间共享的高级概念相似性。当与其他辅助运算符链接在一起形成 Distill–Cluster–Synthesize 管道时，Synthesize 运算符允许LLoM 算法生成高级概念（图3)。

该运算符将一组文本示例作为输入，并负责生成一个或多个连接示例的统一的高级概念。根据我们的定义，这些高级概念必须包含人类可理解的描述和包含标准。大语言模型具有非常适合帮助完成这项任务的功能。例如，GPT-3.5 Turbo和GPT-4可以从少量示例成功泛化；即，确定统一的概念并将其推广到新的例子。这种功能也称为少样本推理，通常在用户已经知道底层模式并希望模型重复应用它的情况下使用（例如，将文本翻译为不同的格式，或转移写作风格）（Brown 等人，2020）。但是，在用户提前不知道其数据中存在哪些概念的情况下，我们也可以利用此功能来帮助发现。虽然大语言模型可以产生幻觉并产生不可靠的输出，但通过构建我们的任务不仅产生概念，而且还产生评估这些概念的标准，我们可以通过检查标准并重新评估原始数据来验证大语言模型的输出，以测试是否概念成立。

基于这一见解，LLooM 将 Synthesize 运算符实现为零样本提示，指示大语言模型 (gpt-4) 从提供的数据中识别统一的高级概念。一组例子。这些指令要求模型生成一个描述概念的名称，提供与该概念最匹配的代表性示例的ID，并生成自己的提示可以评估新颖的文本示例并确定该概念是否适用。这些组件中的每一个都是对于理解概念的含义有用的输出。这些组件还利用思想链 (CoT) 提示策略（Wei 等人，2022；Kojima 等人，2022），指示模型提供其工作轨迹并提高可能性的内部一致性。

我们在下面提供了提示模板。²²2在提示中，我们使用术语“模式”作为“概念”的同义词；通过实验，我们发现这个术语对于简洁地传达需要在多个项目之间共享的概念更有效，而“概念”是一个更通用的术语，导致指令遵循的可靠性较低。用户可以改变概念名称的长度、代表性概念示例的数量以及要建议的概念的数量；我们默认使用 2-4 个单词的概念名称并要求 1-2 个代表性示例。

⬇

I have this set of bullet point summaries of text examples:

{bullets_json}

Please write a summary of {n_concepts} unifying patterns for these examples {seed_phrase}.

For each high-level pattern, write a {n_name_words} word NAME for the pattern and an associated one-sentence ChatGPT PROMPT that could take in a new text

example and determine whether the relevant pattern applies.

Please also include {n_example_ids} example_ids for items that BEST exemplify the pattern. Please respond ONLY with a valid JSON in the following format:

{{

"patterns": [

{{

"name": "<PATTERN_NAME_1>",

"prompt": "<PATTERN_PROMPT_1>",

"example_ids": ["<EXAMPLE_ID_1>", "<EXAMPLE_ID_2>"]

}},

{{

"name": "<PATTERN_NAME_2>",

"prompt": "<PATTERN_PROMPT_2>",

"example_ids": ["<EXAMPLE_ID_1>", "<EXAMPLE_ID_2>"]

}},

]

}}

值得注意的是，该运算符从主题建模通常结束的地方开始：使用可能具有相似性的数据分组。然而，与寻求为集群分配标签的方法相比，我们的 Synthesis 运算符的一个关键区别在于，它并不一定要标记整组示例，而是围绕有选择地提出组中项目之间的显着联系。我们的提示通过要求模型识别最能体现概念的示例子集来实例化这一点，而不是要求所有示例都与概念相匹配，并将任务表述为模式识别而不是整体标签分配。由于集群通常是嘈杂的，我们的方法是识别具有统一连接的示例，而不是尝试整体总结集群，这可能会导致模糊的连接。

辅助操作员

概念生成阶段的其余算子旨在通过缓解大型语言模型的一些挑战（例如词符限制和输出质量不均匀）来提高核心 Synthesize 算子的性能。

.Distill 运算符将输入数据压缩为更紧凑的表示，同时保留重要或独特的属性，这既解决了大语言模型上下文窗口的限制，又赋予了“缩放”感兴趣区域以改进概念生成的能力。在 LLooM 中，我们采用多步骤方法以自然语言实现 Distill 运算符。首先，我们通过提供输入文本示例并提示大语言模型(gpt-3.5-turbo)来执行零样本摘要的过滤步骤，以生成提取摘要从原文中选择准确的引文；如果文字不是很长，这一步可以省略。用户可以调整要选择的报价数量，但默认情况下该参数留空，以便模型可以提取任意数量的报价。以下是过滤器提示的示例：

⬇

I have the following TEXT EXAMPLE:

{text_example_json}

Please extract {n_quotes} QUOTES exactly copied from this EXAMPLE {seed_phrase}.

Please respond ONLY with a valid JSON in the following format:

{{

"relevant_quotes": [ "<QUOTE_1>", "<QUOTE_2>", ... ]

}}

然后，我们执行摘要步骤，提示大语言模型 (gpt-3.5-turbo) 以项目符号文本摘要的形式生成抽象摘要。如果需要，用户可以调整要生成的项目符号点的数量和项目符号点的长度，但我们使用默认的“2-4”个项目符号点和“5-8”个单词的长度。我们在下面提供了一个示例提示：

⬇

I have the following TEXT EXAMPLE:

{text_example_json}

Please summarize the main point of this EXAMPLE {seed_phrase} into {n_bullets} bullet points, where each bullet point is a {n_words} word phrase.

Please respond ONLY with a valid JSON in the following format:

{{

"bullets": [ "<BULLET_1>", "<BULLET_2>", ... ]

}}

Distill 运算符允许我们将每个示例削减为其显着属性，并且受到定性分析中初始逐行编码或开放编码的启发（Muller，2014；Charmaz，2006）。

.接下来，Cluster 运算符根据 Distill 步骤中的表示形式将相关项分组在一起。为了让Cluster 运算符生成横切概念，所有经过提炼的要点都从其原始示例中分离出来并汇集在一起。因此，Cluster 运算符的输入是来自 Distill 运算符的浓缩项目符号点集，输出是一组组分配，使得每个孤立的项目符号点被分配给一组相关的项目。LLooM 算法使用指定的预训练嵌入模型将要点转换为嵌入，然后使用提供的聚类算法对项目进行聚类。我们的实现使用 OpenAI 的 text-embedding-ada-002 模型，因为它的上下文相对较长且生成时间较快。对于聚类，我们选择HDBSCAN，一种分层聚类算法，因为它的基于密度的方法不需要大量的参数调整，并且不需要将所有点放置在一个聚类中。这些属性增加了我们动态生成的集群在无需手动干预的情况下包含显着示例的可能性。Cluster 运算符类似于相似性分组和轴向编码等过程的初始阶段，它将示例合并为可能的分组，这是 Synthesize 运算符完成之前的关键步骤识别相似性和概念主题的过程。

. 如果分析师希望将 LLooM 的注意力转移到数据的特定方面该怎么办？ LLooM 允许分析师引导系统关注政治数据集的“社会问题”、学术论文数据集的“评估方法”或文本对话数据集的“情感表达”。可选的Seed运算符接受用户提供的种子术语来条件Distill或Synthesize运算符，这可以改进输出概念的质量和一致性。该种子项在大语言模型提示中提供附加指令，要求模型关注数据的特定方面。³³3The seed term is inserted as the seed_phrase shown in the example prompts above in the format “related to {seed_term}.” 对于 Distill 运算符，这将指示模型生成摘要，重点关注与种子项相关的部分数据。同样，对于 Synthesize 运算符，这将指示模型在与种子项相关的示例中提出统一的概念。从定性分析中汲取灵感，定性分析承认对数据有多种有效的解释，种子操作员授予分析师控制权，以根据他们的分析目标和所需的解释镜头来引导概念生成过程。

3.1.2. 概念评分

LLoM 算法的概念生成阶段之后是概念评分阶段，该阶段将生成的概念应用回完整数据集。

有了这些概念，LLooM 接下来会应用一个分数（例如 0-1）来描述每个输入与概念之间的关联。对于每个高级概念，系统将 Score 运算符应用于所有示例（输入文本）以生成概念分数，该分数估计每个示例与生成的概念提示的匹配程度。这是使用批量零样本提示来实现的，其中包括一组 JSON 格式的示例、概念提示以及生成多项选择格式答案的说明。先前的工作发现，大语言模型在零样本设置中不提供校准的 0-1 置信度分数（Lin 等人，2022）。然而，最近的工作发现，对于 GPT-3.5 等指令调优的 OpenAI 模型，多项选择提示（Santurkar 等人，2023；Robinson 等人，2022）可以提供近似答案概率。我们使用多项选择提示来指示模型生成多项选择答案⁴⁴4Our multiple choice options are: A: Strongly agree, B: Agree, C: Neither agree nor disagree, D: Disagree, E: Strongly disagree。这些答案被解析并转换为分桶数字分数，“强烈同意”映射到 1.0，“强烈不同意”映射到 0.0。然后将分数设置为二进制标签的阈值；用户可以调整示例被视为概念匹配的阈值。给定 $n$ 示例和 $c$ 高级概念，此阶段会生成一个 $n\times c$ 矩阵，每个示例都有一个二进制概念标签。

此概念评分阶段旨在带来定性分析中演绎编码流程的一些优势，即将代码应用回数据。这种演绎编码过程既允许分析师理解他们的数据，也暴露了他们的密码本中潜在的差距、偏差或限制，这些可以在归纳编码的进一步迭代中得到解决。

最后，根据概念评分结果，LLooM 可以使用 Loop 运算符来执行算法的多次迭代。该运算符执行逻辑来修改输入到管道的下一次迭代。我们使用数据覆盖来确定在每次后续迭代中将处理哪些示例。概念评分阶段完成后，Loop 运算符会识别两类异常值：1) 未覆盖示例，这些示例与任何都不匹配当前的高级概念和 2) covered-by-generic 示例，仅匹配“通用”概念，即那些与大多数示例（至少 $50\%$ )匹配的概念。所有此类示例都作为算法下一次迭代的输入提供，并且后续运行生成的概念将添加到完整的概念集中。

3.1.3. 实施细节

LLoM 算法作为 Python 库实现，可以导入到 Jupyter 等计算笔记本或 Flask 等 Web 应用程序框架中。我们主要对除 Synthesize 运算符之外的所有运算符使用 GPT-3.5 (gpt-3.5-turbo)，该运算符受益于 GPT-4 改进的推理能力。对于 Distill 操作员，过滤和汇总步骤均通过零样本提示执行到 gpt-3.5-turbo 模型，使用 OpenAI API，温度为 $0$ 以提供更一致的结果。对于Cluster运算符，我们使用text-embedding-ada-002模型中的OpenAI嵌入，并使用HDBSCAN聚类算法。对于 Synthesize 运算符，我们使用 OpenAI API，并提供 gpt-3.5-turbo 或 gpt-4 选项，再次使用温度 $0$ 。Score 运算符提供了使用 OpenAI API 与 gpt-3.5-turbo 或 Google PaLM API 与 chat-bison-001 的选项模型，温度均为 $0$ 以保持一致性。作为参考，在我们在 §4 中描述的场景中，LLooM 算法一次运行的总成本平均为 1.44 美元，使用了 $848,323$ Token （结合输入和输出），平均需要 $13.7$ 分钟才能完成。值得注意的是，概念评分步骤比概念生成步骤的成本和时间密集程度要高得多，平均消耗总成本的 $79.9\%$ 并且 $58.4\%$ 的总时间。附录A中提供了完整的提示。

3.1.4. 算法限制

我们注意到当前 LLooM 算法的一些局限性，这些局限性可能是未来工作富有成效的领域。首先，LLooM 算法有许多可用参数，例如在 Distill 阶段要提取的报价数量和生成的要点数量。虽然这些参数对于用户来说是可以解释的，但用户预先设置它们并不简单，因此系统最好在可能的情况下动态设置这些值。我们的系统具有用于计算参数值的默认值和公式，但尚未对这些值和公式在各种数据集上的适用性进行可靠的测试。

此外，当前的实现没有使用验证步骤，例如确保引用完全匹配、要点与引用准确、概念分数和基本原理看起来正确。虽然可靠验证对大语言模型来说是一个持续的挑战，但 LLooM 的未来扩展可以受益于程序化检查和明确设计用于验证每个阶段输出的大语言模型运算符。我们使用大语言模型也意味着重新运行时结果存在差异。虽然这对于探索并行分析路径和模拟变化来说是一个有用的功能，但在分析必须可复制或需要稳健、一致的对齐的情况下，它可能是不可取的（Chuang 等人，2015）。

3.2. LLooM 工作台

我们在称为 LLooM Workbench 的交互式文本分析工具中实例化 LLooM 概念归纳算法。借助此工具，分析师可以上传非结构化文本数据集，LLooM 将自动提取概念并以交互式可视化方式显示概念（图 4)。

3.2.1. 工作台组件

LLooM 工作台允许分析师根据高级概念查看数据并与之交互。

矩阵视图。概念线程是工作台矩阵可视化的焦点（图4A）。在此视图中，生成的概念显示为行，用户指定的数据切片显示为列。默认情况下，最初为所有数据集显示“全部”切片，但用户可以通过在原始数据集或任何生成的概念的任何元数据列上创作过滤器来指定自己的自定义切片。然后，矩阵中位于概念 $c$ 和片段 $s$ 交汇处的每个单元格都会显示一个圆圈，其大小表示片段 $s$ 中概念 $c$ 的普遍程度，并可按概念的总大小或片段的总大小进行归一化。这种可视化允许用户对跨数据切片（行内）的特定概念的流行度或特定切片（列内）的所有概念的流行度进行一致的比较。用户可以选择任意行进入概念详细视图，或选择列进入切片详细视图。

概念详细视图。在此面板中，用户既可以检查所选概念的含义，也可以查看与该概念匹配的数据集子集（图4B）。面板的左上部分显示概念摘要，其中包括生成的概念名称、生成的条件（执行该条件以评估未见过的示例是否与概念匹配）、导致此概念的子概念以及每个子概念的代表性文本示例。面板的右上方显示一个直方图，可以更详细地了解各个切片的概念流行程度。最后，面板的底部显示一个概念匹配表，其中显示了可能与基于 LLooM 概念分数的概念匹配的示例。默认情况下显示主数据集文本列和概念得分列，但用户可以指定包含原始数据集中的任何其他列。对于算法执行过滤步骤来提取相关引言的情况，过滤后的文本会在表中突出显示。

切片详细视图。同样，此面板显示用户定义切片的详细信息。面板的上部显示用户提供的切片名称（例如“低毒性”）和过滤标准（例如毒性 < 0.25)，以及用于更全面地了解概念的直方图切片的流行率（图4C）。面板底部显示切片摘要表，其中包括满足过滤条件的所有示例。表格中的每一行代表一个示例，表格默认显示主要文本列和所有概念得分列；用户可以再次指定包含数据集中的任何其他元数据列。

3.2.2. 工作台操作

除了核心可视化之外，LLooM 工作台还支持分析师在最初的 LLooM 概念集的基础上进行一系列操作。

添加和编辑。用户可以通过指定概念名称和定义该概念的关联条件提示来手动添加自定义概念。该概念将通过 Score 运算符应用于数据，并将作为附加行添加到矩阵可视化中。用户还可以通过修改其名称和/或标准提示来编辑现有概念，并且他们可以在进行这些修改后类似地启动概念重新评分。

合并和拆分。用户还可以合并多个相关概念，这会提示系统生成新的概念名称和组合所选概念的条件。相反，当概念过于笼统时，用户可以对其进行拆分，这会提示系统为所选概念创作新的子概念。

3.2.3. 实施细节

LLooM Workbench 作为 Jupyter 小部件实现，用于计算笔记本。该部件借鉴了§3.1中描述的 LLooM 算法 Python 库，并实现了一个 Svelte UI 组件库。我们使用anywidget Python库⁵⁵5https://anywidget.dev 将 Svelte 组件渲染为笔记本小部件。交互式 LLooM 矩阵可视化是使用 D3 JavaScript 库实现的。⁶⁶6https://d3js.org

4. LLooM 场景

通过将概念线程作为可解释和可延展的材料来处理数据，LLooM 开辟了理解文本数据并与之交互的新方法。在接下来的三个部分中，我们将进行多部分评估，以：演示 LLooM 从各种现实世界数据集中呈现的概念（§4：LLooM 场景）、了解 LLooM 的技术性能将 LLooM 算法与现有方法进行比较（第5：技术评估），并探索专家分析师如何利用 LLooM 工作台中的概念理解数据（第6：专家案例）学习）。

首先，为了展示 LLooM 在各个领域的真实数据集上的输出，我们提出了四种数据分析场景：针对有毒内容制定内容审核政策 (§4.2)、减轻社交媒体上的党派敌意 ( §4.3)，分析学术论文摘要（§4.4)，并调查人工智能研究的预期后果（§C.1)。这些案例的选择涵盖了各种文本格式和长度（从简短的社交媒体帖子到论文摘要）和分析目标（从调查文献到开发决策政策或机器学习模型）。

4.1. 方法

这些场景的目标是定性地说明 LLooM 在实践中如何工作。因此，我们与主题模型进行比较，因为它们是当今非结构化文本分析的事实标准。

4.1.1. 基线结果生成

我们使用最先进的 BERTopic 模型作为代表性基线主题模型。对于每种场景，我们使用 OpenAI text-embedding-ada-002 嵌入和 HDBSCAN 运行 BERTopic，最小簇大小设置为完整数据集大小的 $2-3\%$ 。然后，我们收集所有生成的主题及其相关关键字（由 BERTopic 使用 c-TF-IDF 生成）以及分配给每个主题的文档。为了运行 LLooM，我们启动了一个新会话来执行 LLooM 流程的一次迭代。在 LLooM 中，我们随机抽取了多达 200 个项目来运行此过程，并设置了最多生成 20 个最终概念的限制。我们专注于这些大小的数据样本，优先考虑交互式概念归纳完成时间（5-15 分钟）和概念评分时间在 20 秒以下，以支持手动概念创作。对于这些运行，我们使用 gpt-3.5-turbo 执行所有提取和合成操作，并使用 OpenAI text-embedding-ada-002 嵌入进行聚类阶段。为了将项目分配给概念，我们使用最高分选项设置的阈值（1.0：强烈同意）收集了每个概念获得正面标签的所有项目。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (5)

4.1.2. 基线定性分析

对于每个数据集，研究团队的一名成员手动审核了所有结果。对于 BERTopic，他们通过检查生成的关键字（例如“石油、天然气、能源”、“众议院、共和党、民主党”）以及分配给该主题的所有文档来审查每个主题，并编写了自己的手动标签来综合统一的标签主题的主题（例如，环境政策、政党)。

通过设计，LLooM 具有生成用自然语言描述的高度具体概念的优势（例如，用户界面增强和用户体验增强)。然而，BERTopic 的输出不太可能仅通过关键字（例如“用户、用户、交互”）来传达这种细微差别，因此在很大程度上惩罚该方法似乎是不公平的，因为它缺乏这种表达能力。因此，为了便于与 BERTopic 输出进行直接比较，我们采用保守的方法来估计重叠，方法是将 BERTopic 不合理产生的 LLooM 概念集分组在一起。研究团队成员审查了所有 LLooM 概念，并将含义重叠的所有概念分组在一起：一个概念是另一个概念的子集（例如，政策倡导和倡导），或者两个概念似乎是同义词（例如，用户界面增强和用户体验增强)。使用这组简化的结果，被视为具有共享含义的 BERTopic 主题和 LLooM 概念被视为重叠结果。

4.2. 场景 1：制定有毒内容的审核政策

首先，我们研究了一个内容审核任务，其中社交媒体平台正在开发一个模型来对文本帖子执行自动内容审核。先前的研究发现，人们对于有毒内容的构成存在很大分歧（Kumar 等人，2021；Gordon 等人，2021），因此非结构化文本分析可能会让版主在理解和分类紧急用户时获得更大的细微差别行为。我们使用社交媒体帖子数据集（来自 Twitter、Reddit 和 4chan），该数据集收集了不同注释者对内容毒性的观点以及来自 $17,280$ 美国调查参与者对超过 $100,000$ 的评分> 示例（Kumar 等人，2021）。我们将 BERTopic 应用于完整数据集，过滤到最大的集群，并选择与女权主义相关的集群( $n=496)$ ，因为它与不同的用户社区和潜在争议的主题保持一致。

4.2.1. 结果

如图 5 和 6 所示，LLooM 生成了 $10$ 组独特的概念，如 "贬低男性"、"赋予女性权力 "和 "性别不平等与歧视"。同时，BERTopic 生成了带有“女权主义者、女权主义、女权主义者”和“女人、男人等”等关键词的 $8$ 主题。根据对 BERTopic 结果的手动检查，这些是与女权主义、权力和男性/女性等特定关键词一致的相当高级别的分组。同时，LLooM 的结果并不与关键词绑定，但常常捕捉到超越了表面特征的态度（例如，“贬低男性”）和解释（例如，“男性对不公平待遇的看法”、“反思和内省”）。文本。我们观察到 BERTopic 结果的 $50\%$ 被 LLooM 覆盖，而 LLooM 结果的 $40\%$ 被 BERTopic 覆盖，因此两种方法之间存在一些差异。此外， $44.4\%$ 的示例未被BERTopic分类，而 $9.5\%$ 的示例未被LLooM分类，因此LLooM获得了更高的数据覆盖率。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (6)

4.3. 场景 2：减轻社交媒体上的党派仇恨

政治两极分化是美国的一个主要问题，它给民主带来了潜在的生存风险。如果社交媒体算法在放大党派敌意方面发挥了作用（Milli 等人，2023；Jia 等人，2024），我们如何重新设计社交媒体算法来减轻这种影响？我们的下一个场景调查政治社交媒体帖子，以探索我们是否可以检测并降低放大党派敌意的内容。我们使用 Jia 等人 (2024) 的公开 Facebook 帖子数据集。该数据集是通过使用政治相关页面类别（例如“政治”、“政治家”、“政治组织”和“政党”）过滤 CrowdTangle 上的政治帖子而生成的。该数据集由 $405$ 帖子组成，这些帖子是针对党派敌意随机抽样并手动编码的。⁷⁷7分数由 8 个分项分数相加而成。每个子分数的范围为 1-3，因此分数范围为 8 至 24，其中 8 对应于最低的党派敌意，24 对应于最高的党派敌意。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (7)

4.3.1. 结果

LLooM 生成了 $14$ 个不同的概念，例如“对国家安全的担忧”、“提及的政治派别”和“政策倡导”，如图 7 所示。与此同时，BERTopic 生成了包含“众议院、共和党、民主党”、“护理、疫苗、授权”和“石油、天然气、能源”等关键词的 $8$ 主题。 BERTopic 生成的数据分组与主要实体（例如“政党”和“社区”的手动标签）和政治问题（例如“边境政策”和“环境政策”的手动标签）保持一致。LLooM 概念同样涵盖了许多相同的实体和政治问题，但也捕获了某些用户行为，例如在 Facebook 帖子中表达哀悼和具体提及个人（例如政治人物）。 LLooM 还解决了一些其他政治问题，例如社会正义和获得负担得起的服务。虽然 LLooM 涵盖了 BERTopic 结果的 $87.5\%$ ，但 BERTopic 涵盖了 LLooM 结果的 $50\%$ ，因此 LLooM 概念中有相当大一部分是新颖的补充。此处， $26.2\%$ 示例未按 BERTopic 分类，而 $2.5\%$ 示例未按 LLooM 分类。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (8)

4.4. 场景 3：分析 UIST 论文摘要

最近的一项大规模文献综述通过分析专利引用（曹等人，2023）来调查人机交互研究对行业的影响。先前的工作使用 LDA 主题来描述影响专利的研究趋势。我们探讨 LLooM 是否可以使用相同的 HCI 论文摘要数据集来帮助描述过去 30 年在主要 HCI 场所的研究特征。我们筛选出来自 UIST ( $n=1733$ ) 的论文，因为 Cao 等人 (2023) 论文发现 UIST 论文的专利引用比例极其巨大，我们试图更好地了解随着时间的推移，UIST 研究的性质以及其高行业影响力背后的潜在因素。为了能够进行跨时间段的比较，我们收集了 1989-1998 年、1999-2008 年和 2009-2018 年每个十年的分层随机样本，每个十年都有 $70$ 篇论文，总样本为 $n=210$ 用于此探索性分析的论文。

4.4.1. 结果

LLooM 生成了 $16$ 不同的概念，例如“手势识别”、“可视化技术”和“传感器集成”，如图 8 所示。同时，BERTopic 生成了 $12$ 个不同的主题，其中包含“控制、用户、触觉”、“现实、VR、虚拟”和“语音、音频、多模式”等关键词。对于这个数据集，BERTopic 的输出比其他场景更加连贯，部分原因可能是学术摘要的编写是为了清楚地表明其主题。此外，对于这种类型的分析，低级关键字比典型的关键字更有用，因为许多关键字是精确的技术术语（例如“VR”、“触觉”和“多模式 UI”），通常在标准中使用，狭义。同时，LLooM 概念与 BERTopic 主题非常一致，但不重叠的领域似乎出现了几个独特的概念。虽然大多数成果与公认的研究主题一致，但“性能改进”、“原型系统”和“数学框架”的概念似乎描述了工作的各个方面，例如更高层次的方法和评估策略，并且都提出了关于与其他 HCI 场所相比，UIST 使用的常见评估指标和实施方法。相比之下，不重叠的 BERTopic 主题似乎是额外的研究主题领域，但不是新类型的主题。虽然 $83.3\%$ 的 BERTopic 结果被 LLooM 覆盖， $62.5\%$ 的 LLooM 结果被 BERTopic 覆盖，因此 LLooM 获得了更高的覆盖率。此处， $18.6\%$ 示例未按 BERTopic 分类，而 $6.7\%$ 示例未按 LLooM 分类。

4.5. 场景限制

我们注意到这些分析场景的一些局限性。首先，为了在 LLooM 和 BERTopic 之间提供更公平的比较，我们只对 LLooM 算法进行了一次迭代。然后，因为我们优先考虑场景的交互式完成时间，所以我们采样了大约 200 个示例，以便在每个场景的 LLooM 中使用，但某些数据集要大得多。因此，存在以下风险：LLooM 不能完全代表数据，并且如果在更大的数据集上运行，其概念可能会有所不同。然而，我们注意到 LLooM 生成的概念标准的一个好处是，即使概念是从较小的数据样本中归纳出来的，它们也可以应用于更大的集合来评估概念的普遍性和覆盖范围。

我们没有针对“真实情况”概念的场景数据集的手动注释，因此我们无法报告 LLooM 概念的全球覆盖范围，也无法报告它们与手动分析师生成的概念的一致性。我们将在下一节§5中使用标注数据集进行基本概念覆盖率分析。最后，虽然选择的场景涵盖了各种主题领域、数据集大小和分析目标，但当应用于其他类型的数据集时，LLooM 结果可能会有所不同。

5. 技术评估

接下来，我们进行技术评估，将 LLooM 概念生成与人工注释和非结构化文本分析的最先进方法进行比较。我们使用 (1) 从维基百科文章和美国国会法案 (§5.1) 中提取的现实世界基准数据集和 (2) 综合用于更好的实验控制的数据集（§5.2)。与 LLooM 场景一样，我们将 BERTopic 基线作为最先进的主题建模方法。由于此评估是以性能为导向的，因此我们添加了 GPT-4 和 GPT-4 Turbo 基线来了解 LLooM 相对于基本大语言模型的性能如何。

5.1. 概念生成：基准数据集

首先，我们在现实世界数据集上评估 LLooM 概念生成，这些数据集来自主题建模的先前工作（Pham 等人，2023），这些数据集具有非结构化文本文档和人类主题注释：维基百科文章数据集（Merity 等人，2018）和美国国会法案数据集（Hoyle 等人，2022）。这些注释被明确定义为主题，它们往往与更通用的概念保持一致，并且可能无法完全捕获 LLooM 可以生成的概念集。然而，主题注释提供了与现有主题建模方法进行比较的有用点。

5.1.1. 公制

LLooM 概念归纳的目标是从非结构化文本中可靠地呈现信息丰富、有效的概念。因此，我们通过测量 LLooM 概念恢复真实主题的程度来评估它们的有效性和全面性，这些主题是由人类注释者生成的，并且已知出现在给定的数据集中。我们使用概念覆盖率指标来评估 LLooM 和基线方法从人工注释数据集中恢复真实概念的效果，无论是基准数据集还是我们在 §5.2。

对于每种方法和数据集，我们运行 10 次独立的概念生成试验，总共 80 次试验。每次试验都会随机打乱数据集文档，使用新会话来调用 LLooM 和 GPT-4 变体的 OpenAI API，并为 BERTopic 训练新的主题模型。对于每次试验，我们都会确定覆盖率，即生成的概念所覆盖的真实主题的比例。我们使用 GPT-3.5 (gpt-3.5-turbo) 计算自动覆盖率指标。我们的少样本提示提供了基本事实和生成的概念，并要求模型将每个基本事实概念与最多一个生成的概念相匹配，前提是其含义与基本事实概念匹配（附录 A.5)。为了验证这种自动覆盖率指标，我们随机抽取 16 次试验的结果（每种概念生成方法中 4 次），并手动匹配每次试验的所有基本事实和生成的概念。将手动覆盖率视为基本事实，我们观察到平均绝对误差 (MAE) 为 0.07（即，平均情况下手动覆盖率可能为 40%，自动覆盖率为 33%）。

5.1.2. 方法

我们评估了四种概念生成方法：LLooM、BERTopic、GPT-4 和 GPT-4 Turbo。我们使用与§4中描述的相同的 LLooM 流程和 BERTopic 设置，但为了与 GPT-4 基线保持一致，我们使用 GPT-4 作为 Synthesize 运算符；我们继续使用 GPT-3.5 进行 Distill 操作步骤。此外，我们还增加了 LLooM Cluster 和 Synthesize 运算符的输入和输出批量大小，以适应基准数据集的较长文档。我们添加了使用零样本提示直接查询 GPT-4 和 GPT-4 Turbo 的基线。对于这些基线，我们使用与 LLooM Synthesize 运算符相同的提示，但提供完整的文档文本，而不是经过提炼和聚类的文本摘录。由于GPT-4的上下文窗口有限，我们随机采样文档来填充上下文窗口；所有文档都适合更大的 GPT-4 Turbo 上下文窗口。

5.1.3. 数据集

维基百科文章数据集 (Wiki) 包含 14,290 篇文章和 15 个通用主题的人工注释，例如“艺术与建筑”和“语言与文学”。国会法案数据集 (Bills) 包含 32,661 条法案摘要和 28 个通用主题的人工注释，例如“教育”、“环境”和“健康”。我们使用跨主题分层的数据集文档的随机样本（分别为 n=205 和 n=213），以适应 GPT-4 基线的上下文窗口限制。使用公开可用的带注释数据集的一个缺点是它们可能出现在 GPT 预训练语料库中，这在一定程度上激发了我们的综合数据集评估。正如之前的工作所指出的，Wiki 数据集的文本到标签映射可能已经出现在预训练数据中（Pham 等人，2023），因此该数据集可能会呈现夸大的 GPT 估计-4 基线。同时，Bills 数据集可以提供更真实的性能估计：由于账单摘要文本和标签是分开存储的，因此该数据不太可能出现在 GPT-4 训练数据中。LLoM 算法在执行概念生成之前会大幅转换文本跨度，因此它可能不会从 GPT-4 对 Wiki 数据集的潜在知识中“受益”那么大。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (9)

5.1.4. 结果

LLooM 在 Bills 数据集上超出基线覆盖率 17.9%（LLooM： $M=0.74$ ，GPT-4 Turbo： $M=0.56$ )，并与 Wiki 数据集上的 GPT-4 基线匹配（LLooM： $M=0.81$ 、GPT-4： $M=0.83$ 、GPT-4 Turbo： $M=0.82$ )，如图9所示。 GPT-4 和 GPT-4 Turbo 在 Wiki 数据集上的覆盖率比 Bills 数据集高得多，这支持了我们关于 Wiki 数据集可能包含在 GPT 预训练数据中的注释；由于记忆文本到标签的映射，Wiki 性能指标可能会被夸大。因此，值得期待的是，在 Bills 数据集上，LLooM 保持相对一致的高覆盖率（仅下降 8.7%），而 GPT-4 Turbo 覆盖率下降 25.6%。与我们的 LLooM 场景一致，BERTopic 显示两个数据集的概念覆盖率明显较低（法案： $M=$ M=0.29，维基： $M=$ M=0.63）与 GPT-4 基线和 LLooM 相比。

我们使用具有固定效果的方法的线性模型进一步研究这些发现：覆盖率 ~ 1 + 方法。我们为每个数据集使用单独的模型。对于 Bills 数据集，我们观察到方法 ( $F(3,36)=22.36,p<.001$ ) 的显着主效应。事后成对 Tukey 测试发现除 GPT-4 与 GPT-4 Turbo 之外的所有方法对之间的覆盖率存在统计显着差异（GPT-4 与 GPT-4 Turbo 的 $p=0.997$ , $p<.02$ 对于 GPT-4 Turbo 与 LLooM， $p<.01$ 对于所有其他对）。对于 Wiki 数据集，我们还观察到方法 ( $F(3,36)=3.568,p<.05$ ) 的显着主效应。事后配对 Tukey 测试仅发现 BERTopic 和 GPT-4 之间的覆盖率存在统计显着性 ( $p<.05$ ) 差异；任何其他方法对之间没有显着差异。

我们通过检查与给定真实主题匹配的每种方法的所有输出来定性比较生成的主题（表17和18)。BERTopic 主题通常更加模糊（例如，对于 Wiki 音乐主题来说“专辑、乐队、音乐”，或者对于 Wiki 视频游戏来说“游戏、系列、幻想”话题）。GPT-4 和 GPT-4 Turbo 主题通常与真实主题紧密匹配（例如 Wiki 视频游戏主题的“视频游戏”和 Bills 交通的“交通政策” > 主题），但 GPT-4 显示了将多个真实主题组合在一个主题中的失败模式（例如，“艺术作品”，其定义映射到 Wiki music 或 art和架构主题），而 GPT-4 Turbo 没有显示这种故障模式。LLooM 生成的主题与真实主题密切匹配（例如 Bills 教育主题的“教育政策”），但它也生成了突出内容的其他值得注意的方面的主题在一个主题范围内（例如，“社区发展：文本是否讨论了促进社区发展的教育？”对于同一法案教育主题）。例如，在真实 Wiki 视频游戏主题中，LLooM 生成了“视频游戏讨论”、“游戏设置”和“角色设计”等概念，以及在 Wiki 音乐主题，LLooM 生成了“乐队组建”和“音乐家的职业”等概念。

总体而言，LLooM 在两个数据集上都保持了较高的概念覆盖率，并且比 Bills 数据集 ( $p<0.02$ ) 的基线提供了显着的覆盖优势。GPT-4 Turbo 是覆盖率指标上最接近的竞争对手，但 LLooM 提供了额外的概念优势，这些概念超越了匹配地面实况标签，可以描述地面实况主题中数据的独特特征。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (10)

Analyzing Unstructured Text with High-Level Concepts Using LLooM (11)

5.2. 概念生成：综合数据集

在展示了 LLooM 在现实数据集上的性能后，我们进一步探讨了它在受控环境中的性能。我们的综合数据集评估评估了当我们改变语料库中包含的文档和概念时 LLooM 的表现。合成数据集使我们能够进行实验控制，以独立研究文档长度和文档内概念流行度等因素如何影响性能，同时保持基本事实概念集及其跨文档流行度不变。此外，由于我们构建了这些数据集，我们可以保证这些文本到真实标签的映射不会出现在 GPT-4 预训练数据中。

5.2.1. 数据集生成

我们的合成数据集是从保持一致的基本事实通用和特定概念的种子集生成的，同时我们改变文档长度和文档内概念流行度。

参数。首先，我们改变文档长度，因为非结构化文本的长度可能因领域而异（例如，社交媒体帖子与学术论文）。此外，像 GPT-4 这样的大型语言模型的上下文窗口有限，并且在整个上下文窗口中表现出不均匀的性能（Liu 等人，2023）。我们测试 5 或 10 个句子的文档长度；这大约匹配我们的 LLooM 场景中的文档长度范围（平均长度为 2 到 8 个句子）。然后，无论概念构成文档的一小部分还是大部分，我们仍然希望 LLooM 恢复它们，因为分析师对微妙和明显的概念都感兴趣。因此，我们改变文档内概念流行度，将其操作为文档中与所提供的种子概念相关的句子的百分比。我们测试了 20% 或 40% 的概念流行率值。最后，概念并不是单一的：有些概念是文档中明确讨论的较低层次、特定的观点，而另一些概念则是由多个较低层次概念演化而来的较高层次、更通用的主题，我们希望我们的方法能够同时捕捉到这两种概念。虽然通用概念在文本聚类等上下文中很有用，以揭示总体模式，但特定概念在话语分析等上下文中很有用，并且可以表征为理论驱动分析提供信息的细微差别模式。因此，我们的数据集实例化了通用和特定的基本事实概念。

生成过程。对于我们的合成数据集，我们选择了一个总体“政治”主题，以与我们的基准数据集评估（比尔数据集）和分析场景（党派仇恨数据集）中的政治相关数据集保持一致。我们手动创建了一个由十个通用概念（例如“医疗保健”）组成的层次结构，每个通用概念都有四个组成的特定概念（例如“心理健康”、“健康保险”），所有这些都在附录 C.4

对于文档长度和概念流行度的每个独特组合，我们使用 GPT-4 生成了 40 个文档。每个文档都是通过选择 40 个特定概念之一生成的，提示模型生成关于整个“政治”主题的 doc_length 句子的文档，并请求与所选特定概念相关的固定数量的句子基于concept_prevalence的概念（参见图10中的示例生成）。

⬇

Write a {doc_length}-sentence paragraph about

’politics’.

In {concept_prevalence * doc_length} sentences of the paragraph, include content related to a SEED TOPIC ’{low_level_concept}’.

Please only return a JSON with this format:

{{

"paragraph": "<PARAGRAPH>",

"seed_topic_sentences": "<The sentences from PARAGRAPH related to SEED TOPIC>"

}}

这种方法使我们能够在文本中明确包含特定概念，同时隐式调用通用概念作为统一多个特定概念的主题。

验证。在生成过程中，我们以编程方式验证文档中的句子总数是否与请求的长度匹配，并且种子概念句子的数量与请求的概念流行度一致。我们审查了所有文档并手动验证种子概念句子是否充分传达了指定的概念。

5.2.2. 方法

我们使用与基准数据集评估相同的程序(5.1 节）对相同的四种方法（LLooM、BERTopic、GPT-4 和 GPT-4 Turbo）进行了实验。对于文档长度和概念流行度的每种组合，我们通过 $n=10$ 独立试验在相应的合成文档集上评估每种方法。我们再次使用 GPT-3.5 计算自动覆盖率指标。我们计算了通用和特定基本事实概念的覆盖范围。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (12)

5.2.3. 结果

总体而言，我们观察到 LLooM 在特定概念上的覆盖率比最近的基线（LLooM： $M=0.71$ 、GPT-4 Turbo： $M=0.55$ )高出 16.0%，并且匹配或超过了通用概念上的基线（LLooM： $M=0.98$ ，GPT-4 Turbo： $M=0.98$ ，GPT-4： $M=0.69$ ，BERTopic： $M=0.46$ )，如图所示图11。这些趋势在文档长度和概念流行程度方面都很稳定（图12)，并且与我们的基准数据集发现结果一致，其中的基本事实主题在形式上与通用概念类似。值得注意的是，LLooM 尤其似乎为特定概念提供了好处，并保持了高覆盖率，而基线方法的覆盖率却大幅下降。

我们使用具有方法、文档长度和概念普及率固定效应的线性模型来分析这些结果：覆盖率 ~ 1 + 方法 + doc_length + Concept_prevalence。我们对通用概念覆盖率和特定概念覆盖率使用单独的模型。对于特定概念，我们观察到方法 ( $F(3,154)=227.4,p<.0001$ )、概念流行度 ( $F(1,154)=22.0,p<.0001$ ) 和文档长度 ( $F(1,154)=5.8,p<.05$ ) 的显着主效应。事后配对 Tukey 检验发现所有方法对之间的覆盖率存在统计显着差异 ( $p<.0001$ )、概念流行水平之间存在统计显着差异 ( $p<0.0001$ ) 以及文档长度之间存在统计显着差异( $p<0.05$ )。换句话说，LLooM 的特定概念覆盖率最高，然后是 GPT-4 Turbo、GPT-4、BERTopic，对于较长的文档和概念流行度较高的文档，特定概念覆盖率较高。对于通用概念，我们观察到方法的显着主效应 ( $F(3,154)=115.03,p<.0001$ )。事后成对 Tukey 测试发现除 GPT-4 Turbo 与 LLoM 之外的所有方法对之间的覆盖率存在统计显着性 ( $p<.0001$ ) 差异。与 GPT-4 和 BERTopic 相比，LLooM 的通用概念覆盖率明显更高，但与 GPT-4 Turbo 没有显着差异。

我们再次比较成功匹配真实概念的每种方法生成的概念（表19)。同样，BERTopic 产生最模糊的输出（例如，经济概念的“财政、经济、希望”），它们是特定概念的超集。与基准数据集一致，GPT-4 和 GPT-4 Turbo 产生的概念往往与通用概念紧密一致（例如医疗保健概念的“医疗保健政策”）。 GPT-4 再次展示了结合多个真实概念的偶尔失败模式（例如，“政治影响力”的定义方式可以映射到经济或外交政策)，但 GPT-4 Turbo 似乎没有面临这个问题。同时，LLooM 生成的概念既匹配通用概念，又匹配特定的地面实况概念，正如我们在基准数据集上看到的那样。例如，LLooM 为经济概念生成“经济政策”，但它也生成“财政措施”和“经济稳定”等概念，这些概念是对中数据的更具体和细致的描述。经济概念。

总之，LLooM 在所有数据集上都表现强劲，并且相对于特定概念 ( $p<.0001$ ) 的基线方法（基线性能受到影响）而言，它尤其出色。 LLooM、GPT-4 和 GPT-4 Turbo 可以生成有效的通用概念，但 LLooM 还能够恢复数据集中的特定概念。

5.3. 概念分类

然后，我们根据人类注释者评估 LLooM 的 Score 运算符（附录 C.2)。 LLooM 获得的评估者间可靠性 ( $\kappa=0.63$ 、 $\kappa=0.645$ ) 与人类注释者 ( $\kappa=0.64$ ) 非常相似，并达到中等到高性能水平（准确度： $0.91$ ，精度： $0.70$ )根据我们的 LLooM 场景数据集生成的主观概念。

6. 专家案例研究

基于展示 LLooM 概念的分析场景以及支持这些概念的有效性和覆盖范围的技术评估，我们探索 LLooM 如何帮助超越概念生成的独立任务的现实数据分析任务。我们与专家数据分析师进行了首次使用会议，他们就我们的两个场景数据集撰写了出版物：(1) 减轻社交媒体上的党派敌意和 (2) 分析人机交互的行业影响。这些会议旨在作为探索性探讨，以演示数据分析师如何与 LLooM 概念交互以理解他们自己的数据。虽然 LLooM 场景和技术评估的目标是验证 LLooM 输出，但专家案例研究的目标是通过强调与现状数据分析的实际知识差异，为 LLooM 分析体验提供设计机会工具。我们专注于少数经验丰富的分析师，因为他们是有洞察力和挑剔的受众，可能已经对数据集有深入的了解，因此他们可以就 LLooM 输出用于数据分析的实用性提供专家反馈。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (13)

有关参与者招募和会议形式的详细信息包含在附录B.1中。简而言之，每项研究都由 1 小时的会议组成，其中包括 BERTopic 分析任务、LLooM Workbench 分析任务和总结访谈。在会议期间，参与者参与了有声思考协议，因为他们对之前出版物中分析的同一数据集进行了探索性数据分析。

6.1. 专家 1：减轻社交媒体上的党派仇恨

在第一场会议中，LLooM 工作台帮助专家分析师识别以前未被注意到的趋势，并激活相关领域知识来激发理论驱动的分析。对于 BERTopic 主题，分析师将 5 个标记为有帮助 ( $62.5\%$ )，一个标记为无法解释 ( $12.5\%$ )，一个标记为与另一个主题重叠 ( $12.5\%$ ) ，如图13所示。对于 LLooM 概念，分析师将 18 个标记为有帮助 ( $90\%$ )，没有一个标记为不可解释 ( $0\%$ )，还有一个标记为与另一个概念重叠 ( $5\%$ )。

6.1.1. BER主题分析过程——理解模糊和重叠的主题

分析师审查了主题关键字（例如“石油、天然气、能源、战略”），并尝试根据数据集的先验知识解释每个主题（例如自然资源和能源)。他们花时间探索示例，主要是为了比较两个高度相似的主题（“众议院、共和党、民主党”和“众议员、国会议员、伟大”），但无法找出有意义的差异。

6.1.2. LLooM 分析过程——通过概念的视角探索数据

相比之下，使用 LLooM Workbench，分析师不需要花时间解释每个概念，而主要花时间通过概念的镜头检查数据。

探索符合或违反期望的概念。分析师根据概念流行率直方图选择性地探索了区分低党派敌意和高党派敌意示例的概念。有几个概念符合分析师的预期，即与高党派敌意（例如“政府相关主题”和“政治评论”）或低党派敌意（例如“政府责任”和“公共卫生关注”）相关。然而，LLooM 帮助分析师发现了一个出乎意料的且特别有用的“政党立场”概念，该概念在党派仇恨程度很高的帖子中普遍存在，并出现了对党外立场的攻击模式。

研究新生模式。从现有“政策相关”概念出发，分析师注意到一种夸大特定政策（例如移民和边境政策）影响的帖子模式。他们进一步探索了这种模式，创建了一个名为“危机”的原始概念的变体，其标准是“这个例子是否提到了因政策而导致的危机？”几秒钟之内，他们很高兴地看到自己成功地识别了一组带有高党派敌意的显着帖子。

激活相关领域知识。在这种探索的推动下，分析师想起了他们在政治科学文献中关于反民主态度的领域知识（Voelkel等人，2023），其中包括社会不信任。他们创建了一个名为“社会不信任”的新概念，其标准是“这个例子是否表现出对其他人或社会的不信任？”分析师发现，这些例子获得了中等到高的党派仇恨分数，但并未落入最高分数范围，因此也许该因素对最严重的党派仇恨案例的预测能力较差。虽然提取显示社会不信任的例子通常是具有挑战性的，这种不信任是隐含的而不是明确的，但 LLooM 允许分析师成功地捕捉这个概念。

6.1.3. 采访要点

总体而言，BERTopic 允许分析师以松散分组的形式查看数据，而 LLooM 则允许他们以有意义的概念来导航和理解数据。

BERTopic 是地图，LLooM 是车辆。BERTopic 主题帮助分析师“可视化主要模式”。他们认为，对于未来的定性编码，此类主题可以简化他们的工作，因为每个集群中的示例可能对党派敌意等结构具有相似的评级。借助 LLooM Workbench，分析师认为该系统“在可视化和帮助我导航概念以及这些概念下的示例方面做得更好。”

LLooM 可以帮助定性分析的基础知识阶段。该分析师表示，LLooM 工作台将“在为数据的不同分类提供指导方面为他们提供很大帮助”以进行定性分析。他们提出了一个潜在的担忧，即 LLooM 的输出可能会影响他们对数据分类的判断：因为它“已经给了我一个初步的分类，所以可能会影响我的判断”。然而，“考虑到这些概念的精确性”，他们认为作为编码的第一步，LLooM 将非常有助于节省时间并更好地理解整个数据集，尤其是对于大型数据集。

6.2. 专家 2：分析 UIST 论文摘要

LLooM Workbench 帮助第二位分析师积极探索假设并实施以前难以实施的分析想法。对于 BERTopic 主题，他们将 8 个标记为有帮助 ( $66.7\%$ )，将 3 个标记为无法解释 ( $25\%$ )，没有一个标记为与另一个主题重叠 ( $0\%$ )，如图13所示。对于 LLooM 概念，分析师将所有 16 个概念标记为有帮助 ( $100\%$ )，没有一个标记为不可解释 ( $0\%$ )，并且没有一个标记为相互重叠 ( $0\%$ ）。

6.2.1. BERTopic 分析流程——处理不连贯和过于笼统的主题

第二位分析师将大部分时间花在审查 BERTopic 关键字上，并且仅检查示例以理解具有无法解释的关键字的主题。他们主要在关键字集中寻找连贯的术语组，例如“现实、虚拟现实、虚拟”，但很难为其中 3 个主题 ( $25\%$ ) 编写手动标签。

难以迭代无信息的主题。几个集群由“用户”和“界面”等术语组成，这些术语在一般意义上可能提供信息，但在此分析上下文中却没有提供信息。鉴于 HCI 研究中用户和交互的普遍存在，这样的集群并不能帮助分析师理解像 UIST 这样的会议内发生的模式。这是他们之前使用 LDA 对此数据集进行主题建模时的一个主要痛点，因为他们必须执行多轮迭代来捕获停用词并优化输出集群，这非常耗时，并使他们怀疑他们的结果是否稳健。

6.2.2. LLooM 分析过程——利用概念探索假设

在使用 LLooM Workbench 时，分析师指出，它与他们之前使用传统主题模型的经验形成鲜明对比。

更少的时间验证，更多的时间探索。借助 LLooM，他们能够立即理解提取的概念并验证它们如何映射到特定文档。分析师认为所有 LLooM 概念对于他们理解 UIST 研究的分析任务都是可解释的和有帮助的，他们发现标准提示对于澄清概念的含义特别有帮助。分析师的大部分时间都花在使用这些概念上来比较几十年来论文主题或方法的变化。

探索自己的预感和分析思路。分析师对使用 LLooM 创作新概念感到特别兴奋，因为这是传统主题建模工具的障碍，分析师无法主动指定他们希望探索的自己主题。这位分析师很好奇是否有更多的人机交互研究人员将人工智能融入到他们的系统中，因为从他们的轶事经验来看，情况似乎就是这样。他们提出了一个名为“AI”的新概念，其标准是“这个例子是否包含人工智能的概念？”确实发现，几十年来，与人工智能相关的论文一直在稳步增长。

研究难以描述的概念。在过去的分析中，分析师有一个假设并想要“放大”这种现象，他们必须依赖关键字搜索，这是耗时的，需要领域知识，并且可能导致覆盖范围差距。他们认为 LLooM 对于这些分析任务非常有用，不仅可以减少工作量，而且可以增加覆盖范围。 LLooM 成功地展示了人工智能概念中没有明确使用人工智能术语的例子，例如一篇只提到“对象识别”的论文，分析师评论说，即使是该领域的研究人员也可能很难想出这样的术语在深入研究数据之前。

6.2.3. 采访要点

总之，分析师发现 LLooM 不仅有助于提供“直接、高层次的数据理念”，而且有助于促进分析师主导的主动数据探索。

LLooM 应该帮助分析师校准他们的信任。他们提出的一个限制是，数据科学家和计算社会科学家可能希望有定量指标来表明该工具的稳健性和可靠性，以增强他们对构建输出概念的信心。此外，这些领域的用户可能希望更好地了解 LLooM 的内部流程，以校准他们对该工具的信任。

LLooM 可以促进理论驱动的分析。分析师对该工具支持更多理论驱动分析以响应 LLooM 自动提取概念的可能性最为热衷。虽然他们在之前的研究项目中希望以这种方式分析数据，但使用现有工具执行这种分析具有挑战性。

7. 讨论

在本文中，我们提出了 LLooM，一种概念归纳算法，可从非结构化文本数据集中提取高级、可解释的概念。 LLooM 不仅提高了主题质量和覆盖范围，而且还提供了可引导性和可解释性的好处。在这里，我们讨论设计的含义、局限性和未来工作的机会。

7.1. 设计意义

LLooM 指出了主题建模和交互式数据分析领域的几个设计机会。

7.1.1. 重新设计数据分析抽象以支持理论驱动的分析

通过 LLooM，我们询问是否有可能重新设计数据分析系统的核心抽象，以围绕分析师思考数据的方式进行。根据我们的评估和基本知识发现，似乎确实可以完全围绕以自然语言表达的人类可理解的概念来定位主题建模过程，并使分析师能够将模型的注意力转向特定的分析目标。通过将数据驱动的结果与人类可读的想法联系起来，我们可以实现一种非常不同的数据分析体验，分析师可以从数据中“读取”涌现的模式，并作为响应“写入”他们的理论以将其应用回数据。

7.1.2. 引入自动化以帮助反思分析过程

通过自动化数据分析过程的各个要素，我们可以让分析师后退一步，不仅仅是制定他们的分析过程，还可以反映和识别其中的潜在差距。此外，在计算社会科学等背景下，分析师可能需要出于可复制性和普遍性的目的做出可信的承诺，确保他们不会过度偏向分析过程。在这些情况下，LLooM 可以自动执行手动数据分析的关键方面，例如提取数据、将相关项目分组在一起、将趋势综合为概念，以及应用这些概念对数据进行分类。 LLooM 可以通过引导用户澄清概念的含义、捕获概念未涵盖的分析盲点以及启动并行重新运行以探索各种数据解释来帮助反思。相比之下，如果分析师确实希望将他们的见解和观点注入到分析中（正如民族方法论传统中更常见的那样），LLooM 可以与分析师进行闭环运作。

7.1.3. 创新我们的核心算法运算符

为了实现 LLooM，我们将本工作中引入的核心运算符（例如 Distill、Cluster 和 Synthesize）组合到一个从定性分析过程中汲取灵感的架构中。然而，运算符和实现的设计空间要广泛得多。我们看到了令人兴奋的机会，可以根据分析师的目标动态地重新排列和重组这些运算符，将其作为不同分析任务的构建块。更进一步，我们可以创新新的运算符，不仅与数据分析师的认知过程相一致，还与其他人类领域专家的认知过程相一致，以完成数据分析以外的任务。

7.2. 局限性和未来的工作

LLooM 还提出了关键的设计挑战，特别是考虑到它使用大型语言模型输出以及 OpenAI 的 GPT 模型的具体使用。这些都指明了未来重要的工作方向。

7.2.1. 不确定的大语言模型行为：跨域性能不均匀的风险

这项工作以及任何基于大型语言模型的工作的一个核心限制是我们目前缺乏可靠性和性能保证。大语言模型的性能在不同领域之间可能存在很大差异，并且很大程度上取决于训练数据，而这些数据通常不为公众所知。虽然我们可以预期像 GPT-4 这样的大语言模型在类似于训练它们的大规模互联网文本数据分布的文本上表现出色，但在法律、医学和需要技术专业知识的领域等专业领域，性能可能会下降。可能需要新的技术来实现大语言模型训练数据中代表性不足的领域的概念归纳。大语言模型经常在遵循指令时犯错误，与逻辑语句作斗争，或者产生不忠实于原始数据的幻觉输出。我们无法完全消除出现此类基本错误的可能性，但我们的系统还通过大量纳入人工审查来降低下游损害的风险：分析师可以将概念追溯到较低级别的概念和原始数据示例，并且他们可以审查概念分数和基本原理捕捉模型失败的情况。

7.2.2. 闭源大语言模型的缺点：成本和缺乏透明度

除了大型语言模型的不确定性之外，闭源模型（例如我们在 LLooM 实现中使用的 OpenAI 的 GPT 模型）还存在其他缺点。由于我们对训练这些模型的数据和模型本身的设计都缺乏透明度，因此我们预测会影响 LLooM 功能的盲点的能力有限。此外，OpenAI 模型的使用还存在可重复性的障碍：API 底层的模型版本可能会在我们不知情的情况下随时发生变化，而且我们缺乏调用过去可能使用过的相同模型版本的控制权。我们选择使用闭源 OpenAI GPT 模型，因为它们代表了最先进的；我们使用其他模型进行的基本知识测试无法可靠地执行我们方法的核心合成操作。然而，随着开源模型能力的提高，未来的工作应该探索使用开源模型进行概念归纳的策略。

闭源大语言模型的另一个限制是，以极大的规模运行我们的流程成本高昂，因为我们的方法依赖于对外部 API 的调用，这些 API 按词符的使用情况收费并强制执行词符限制。自大语言模型 API 最初发布以来，成本已经大幅下降，因此我们预计成本和效率问题在未来将不再是障碍。鉴于概念评分是流程中成本特别高的部分，如果分析师需要扩大分类规模，他们可以使用较少的 LLM 标记示例来探索训练蒸馏模型，以降低推理成本和速度，或者利用开放式模型来源大语言模型。

7.2.3. 分析师的潜在偏见

最后，正如我们的专家案例研究和之前有关人工智能辅助数据分析的文献（Jiang等人，2021；Hong等人，2022）所表明的那样，基于人工智能的分析工具（例如LLooM）可能存在偏差风险分析师或限制他们的机构来领导分析。如果分析师过于依赖 LLooM 输出（不检查概念，不探索生成的概念集之外的潜在差距，或者过度依赖自动概念评分），他们可能会错过数据中的重要模式，或者可能无意中建立在低水平的基础上。质量或有缺陷的模型输出。因此，未来的工作应该帮助用户通过可靠性指标和潜在知识差距来校准他们对 LLooM 的信任。这项工作应进一步帮助用户验证系统输出、手动检查结果并引导后续分析以增强探索性 LLooM 分析。沿着这个思路，大语言模型工具的一个重要限制是大语言模型中编码的价值观和偏见不清楚，但它们肯定可以塑造我们的系统生成的概念。未来的工具需要围绕这一挑战进行设计，并对 LLM 主导的数据分析中嵌入的价值提供更大的透明度和控制力。

8. 结论

非结构化文本包含大量信息，但仍然很难从这种形式的数据中获得有意义的见解。对非结构化文本进行理论驱动的分析尤其具有挑战性。当前的主题建模和聚类等工具很有帮助，但往往会输出“代表、国会议员、伟大”等表面特征，需要付出大量努力来解释和验证。我们介绍了概念归纳的任务，这是一个计算过程，它接受非结构化文本并产生高级概念——由明确的包含标准定义的人类可解释的描述（例如， “政府和社区合作”概念由“文本示例是否提及政府计划或倡议以及社区参与或参与？”等标准定义。高级概念提供了以可解释的形式“读出”数据模式和“写出”可应用于数据的可行理论的功能。我们提出了 LLooM，一种概念归纳算法，它实现了一种新颖的由 LLM 驱动的 Synthesize 运算符，以迭代地采样非结构化文本并提出增强通用性的高级概念。通过在称为 LLooM Workbench 的混合主动文本分析工具中实例化 LLooM，我们证明了其概念能够超越主题模型的质量。借助 LLooM，分析师可以根据可解释、可操作的概念查看数据并与之交互，从而引导对非结构化文本进行理论驱动的分析。

致谢。

我们感谢匿名审稿人以及 Omar Shaikh、Jordan Troutman 和 Farnaz Jahanbakhsh 对我们论文提出的宝贵反馈。我们感谢 Zachary Xi 对我们的评估做出的贡献。这项工作得到了 IBM 作为斯坦福以人为本人工智能研究所 (HAI) 创始成员的部分支持，并获得了 NSF 奖 IIS-1901386。米歇尔·S·林 (Michelle S. Lam) 获得斯坦福大学跨学科研究生奖学金的支持。

参考

(1)
AlSumait et al. (2009)Loulwah AlSumait, Daniel Barbará, James Gentle, and Carlotta Domeniconi. 2009.Topic Significance Ranking of LDA Generative Models. In Proceedings of the 2009th European Conference on Machine Learning and Knowledge Discovery in Databases - Volume Part I (Bled, Slovenia) (ECMLPKDD’09). Springer-Verlag, Berlin, Heidelberg, 67–82.
Baumer et al. (2017)Eric P. S. Baumer, David Mimno, Shion Guha, Emily Quan, and Geri K. Gay. 2017.Comparing grounded theory and topic modeling: Extreme divergence or unlikely convergence?Journal of the Association for Information Science and Technology 68, 6 (2017), 1397–1410.https://doi.org/10.1002/asi.23786arXiv:https://asistdl.onlinelibrary.wiley.com/doi/pdf/10.1002/asi.23786
Blei et al. (2003)David M Blei, Andrew Y Ng, and Michael I Jordan. 2003.Latent Dirichlet Allocation.Journal of Machine Learning Research 3, Jan (2003), 993–1022.
Brooks et al. (2015)Michael Brooks, Saleema Amershi, Bongshin Lee, Steven M Drucker, Ashish Kapoor, and Patrice Simard. 2015.FeatureInsight: Visual support for error-driven feature ideation in text classification. In 2015 IEEE Conference on Visual Analytics Science and Technology (VAST). IEEE, 105–112.
Brown et al. (2020)Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020.Language models are few-shot learners.Advances in neural information processing systems 33 (2020), 1877–1901.
Cao et al. (2023)Hancheng Cao, Yujie Lu, Yuting Deng, Daniel Mcfarland, and Michael S. Bernstein. 2023.Breaking Out of the Ivory Tower: A Large-Scale Analysis of Patent Citations to HCI Research. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (Hamburg, Germany) (CHI ’23). Association for Computing Machinery, New York, NY, USA, Article 760, 24 pages.https://doi.org/10.1145/3544548.3581108
Chang et al. (2009)Jonathan Chang, Sean Gerrish, Chong Wang, Jordan Boyd-Graber, and David Blei. 2009.Reading Tea Leaves: How Humans Interpret Topic Models. In Advances in Neural Information Processing Systems, Y. Bengio, D. Schuurmans, J. Lafferty, C. Williams, and A. Culotta (Eds.), Vol. 22. Curran Associates, Inc.https://proceedings.neurips.cc/paper_files/paper/2009/file/f92586a25bb3145facd64ab20fd554ff-Paper.pdf
Charmaz (2006)Kathy Charmaz. 2006.Constructing Grounded Theory: A Practical Guide through Qualitative Analysis.Sage.
Chen et al. (2018a)Nan-Chen Chen, Margaret Drouhard, Rafal Kocielnik, Jina Suh, and Cecilia R. Aragon. 2018a.Using Machine Learning to Support Qualitative Coding in Social Science: Shifting the Focus to Ambiguity.ACM Trans. Interact. Intell. Syst. 8, 2, Article 9 (jun 2018), 20 pages.https://doi.org/10.1145/3185515
Chen et al. (2018b)Nan-Chen Chen, Jina Suh, Johan Verwey, Gonzalo Ramos, Steven Drucker, and Patrice Simard. 2018b.AnchorViz: Facilitating classifier error discovery through interactive semantic data exploration. In 23rd International Conference on Intelligent User Interfaces. 269–280.
Chuang et al. (2013)Jason Chuang, Sonal Gupta, Christopher Manning, and Jeffrey Heer. 2013.Topic Model Diagnostics: Assessing Domain Relevance via Topical Alignment. In Proceedings of the 30th International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 28), Sanjoy Dasgupta and David McAllester (Eds.). PMLR, Atlanta, Georgia, USA, 612–620.https://proceedings.mlr.press/v28/chuang13.html
Chuang et al. (2012a)Jason Chuang, Christopher D. Manning, and Jeffrey Heer. 2012a.Termite: Visualization Techniques for Assessing Textual Topic Models. In Proceedings of the International Working Conference on Advanced Visual Interfaces (Capri Island, Italy) (AVI ’12). Association for Computing Machinery, New York, NY, USA, 74–77.https://doi.org/10.1145/2254556.2254572
Chuang et al. (2012b)Jason Chuang, Daniel Ramage, Christopher Manning, and Jeffrey Heer. 2012b.Interpretation and Trust: Designing Model-Driven Visualizations for Text Analysis. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Austin, Texas, USA) (CHI ’12). Association for Computing Machinery, New York, NY, USA, 443–452.https://doi.org/10.1145/2207676.2207738
Chuang et al. (2015)Jason Chuang, Margaret E. Roberts, Brandon M. Stewart, Rebecca Weiss, Dustin Tingley, Justin Grimmer, and Jeffrey Heer. 2015.TopicCheck: Interactive Alignment for Assessing Topic Model Stability. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, Denver, Colorado, 175–184.https://doi.org/10.3115/v1/N15-1018
Chuang et al. (2014)Jason Chuang, John D. Wilkerson, Rebecca Weiss, Dustin Tingley, and Brandon M Stewart. 2014.Computer-Assisted Content Analysis: Topic Models for Exploring Multiple Subjective Interpretations. In Advances in Neural Information Processing Systems workshop on human-propelled machine learning. 1–9.
Demszky et al. (2019)Dorottya Demszky, Nikhil Garg, Rob Voigt, James Zou, Jesse Shapiro, Matthew Gentzkow, and Dan Jurafsky. 2019.Analyzing Polarization in Social Media: Method and Application to Tweets on 21 Mass Shootings. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Association for Computational Linguistics, Minneapolis, Minnesota, 2970–3005.https://doi.org/10.18653/v1/N19-1304
Devlin et al. (2018)Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018.Bert: Pre-training of deep bidirectional transformers for language understanding.arXiv preprint arXiv:1810.04805 (2018).
DiMaggio et al. (2013)Paul DiMaggio, Manish Nag, and David Blei. 2013.Exploiting Affinities between Topic Modeling and the Sociological Perspective on Culture: Application to Newspaper Coverage of US Government Arts Funding.Poetics 41, 6 (2013), 570–606.
Drouhard et al. (2017)Margaret Drouhard, Nan-Chen Chen, Jina Suh, Rafal Kocielnik, Vanessa Peña-Araya, Keting Cen, Xiangyi Zheng, and Cecilia R. Aragon. 2017.Aeonium: Visual analytics to support collaborative qualitative coding. In 2017 IEEE Pacific Visualization Symposium (PacificVis). 220–229.https://doi.org/10.1109/PACIFICVIS.2017.8031598
El-Assady et al. (2019)Mennatallah El-Assady, Rebecca Kehlbeck, Christopher Collins, Daniel Keim, and Oliver Deussen. 2019.Semantic Concept Spaces: Guided Topic Model Refinement using Word-Embedding Projections.IEEE Transactions on Visualization and Computer Graphics 26, 1 (2019), 1001–1011.
Evirgen and Chen (2022)Noyan Evirgen and Xiang ’Anthony’ Chen. 2022.GANzilla: User-Driven Direction Discovery in Generative Adversarial Networks. In Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology (Bend, OR, USA) (UIST ’22). Association for Computing Machinery, New York, NY, USA, Article 75, 10 pages.https://doi.org/10.1145/3526113.3545638
Gebreegziabher et al. (2023)Simret Araya Gebreegziabher, Zheng Zhang, Xiaohang Tang, Yihao Meng, Elena L. Glassman, and Toby Jia-Jun Li. 2023.PaTAT: Human-AI Collaborative Qualitative Coding with Explainable Interactive Rule Synthesis. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (Hamburg, Germany) (CHI ’23). Association for Computing Machinery, New York, NY, USA, Article 362, 19 pages.https://doi.org/10.1145/3544548.3581352
Gordon et al. (2021)Mitchell L. Gordon, Kaitlyn Zhou, Kayur Patel, Tatsunori Hashimoto, and Michael S. Bernstein. 2021.The Disagreement Deconvolution: Bringing Machine Learning Performance Metrics In Line With Reality. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (Yokohama, Japan) (CHI ’21). Association for Computing Machinery, New York, NY, USA, Article 388, 14 pages.https://doi.org/10.1145/3411764.3445423
Griffiths and Steyvers (2004)Thomas L Griffiths and Mark Steyvers. 2004.Finding Scientific Topics.Proceedings of the National Academy of Sciences 101, suppl_1 (2004), 5228–5235.
Grootendorst (2020)Maarten Grootendorst. 2020.BERTopic: Leveraging BERT and c-TF-IDF to create easily interpretable topics.https://doi.org/10.5281/zenodo.4381785
Hellrich and Hahn (2016)Johannes Hellrich and Udo Hahn. 2016.Bad Company—Neighborhoods in Neural Embedding Spaces Considered Harmful. In Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. The COLING 2016 Organizing Committee, Osaka, Japan, 2785–2796.https://aclanthology.org/C16-1262
Hong et al. (2022)Matt-Heun Hong, Lauren A. Marsh, Jessica L. Feuston, Janet Ruppert, Jed R. Brubaker, and Danielle Albers Szafir. 2022.Scholastic: Graphical Human-AI Collaboration for Inductive and Interpretive Text Analysis. In Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology (Bend, OR, USA) (UIST ’22). Association for Computing Machinery, New York, NY, USA, Article 30, 12 pages.https://doi.org/10.1145/3526113.3545681
Hoyle et al. (2021)Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik. 2021.Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence.Neural Information Processing Systems 34 (2021), 2018–2033.
Hoyle et al. (2022)Alexander Miserlis Hoyle, Pranav Goel, Rupak Sarkar, and Philip Resnik. 2022.Are Neural Topic Models Broken?. In Findings of the Association for Computational Linguistics: EMNLP 2022. Association for Computational Linguistics, Abu Dhabi, United Arab Emirates, 5321–5344.https://doi.org/10.18653/v1/2022.findings-emnlp.390
Jia et al. (2024)Chenyan Jia, Michelle S. Lam, Minh Chau Mai, Jeffrey T. Hanco*ck, and Michael S. Bernstein. 2024.Embedding Democratic Values into Social Media AIs via Societal Objective Functions.Proc. ACM Hum.-Comput. Interact. 8, CSCW1, Article 163 (Apr 2024), 36 pages.https://doi.org/10.1145/3641002
Jiang et al. (2021)Jialun Aaron Jiang, Kandrea Wade, Casey Fiesler, and Jed R. Brubaker. 2021.Supporting Serendipity: Opportunities and Challenges for Human-AI Collaboration in Qualitative Analysis.Proc. ACM Hum.-Comput. Interact. 5, CSCW1, Article 94 (apr 2021), 23 pages.https://doi.org/10.1145/3449168
Jun et al. (2022a)Eunice Jun, Melissa Birchfield, Nicole De Moura, Jeffrey Heer, and René Just. 2022a.Hypothesis Formalization: Empirical Findings, Software Limitations, and Design Implications.ACM Trans. Comput.-Hum. Interact. 29, 1, Article 6 (Jan 2022), 28 pages.https://doi.org/10.1145/3476980
Jun et al. (2022b)Eunice Jun, Audrey Seo, Jeffrey Heer, and René Just. 2022b.Tisane: Authoring Statistical Models via Formal Reasoning from Conceptual and Data Relationships. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems (New Orleans, LA, USA) (CHI ’22). Association for Computing Machinery, New York, NY, USA, Article 490, 16 pages.https://doi.org/10.1145/3491102.3501888
Kojima et al. (2022)Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. 2022.Large language models are zero-shot reasoners.Advances in neural information processing systems 35 (2022), 22199–22213.
Kumar et al. (2021)Deepak Kumar, Patrick Gage Kelley, Sunny Consolvo, Joshua Mason, Elie Bursztein, Zakir Durumeric, Kurt Thomas, and Michael Bailey. 2021.Designing Toxic Content Classification for a Diversity of Perspectives. In Seventeenth Symposium on Usable Privacy and Security (SOUPS 2021). USENIX Association, 299–318.https://www.usenix.org/conference/soups2021/presentation/kumar
Lam et al. (2023)Michelle S. Lam, Zixian Ma, Anne Li, Izequiel Freitas, Dakuo Wang, James A. Landay, and Michael S. Bernstein. 2023.Model Sketching: Centering Concepts in Early-Stage Machine Learning Model Design. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems (Hamburg, Germany) (CHI ’23). Association for Computing Machinery, New York, NY, USA, Article 741, 24 pages.https://doi.org/10.1145/3544548.3581290
Li et al. (2020)Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, and Lei Li. 2020.On the Sentence Embeddings from Pre-trained Language Models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational Linguistics, Online, 9119–9130.https://doi.org/10.18653/v1/2020.emnlp-main.733
Lin et al. (2022)Stephanie Lin, Jacob Hilton, and Owain Evans. 2022.Teaching Models to Express Their Uncertainty in Words.arXiv:2205.14334 [cs.CL]
Liu et al. (2023)Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, and Percy Liang. 2023.Lost in the Middle: How Language Models Use Long Contexts.arXiv:2307.03172.
McInnes and Healy (2017)Leland McInnes and John Healy. 2017.Accelerated Hierarchical Density Based Clustering. In Data Mining Workshops (ICDMW), 2017 IEEE International Conference on. IEEE, 33–42.
Merity et al. (2018)Stephen Merity, Nitish Shirish Keskar, and Richard Socher. 2018.Regularizing and Optimizing LSTM Language Models. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net.https://openreview.net/forum?id=SyyGPP0TZ
Milli et al. (2023)Smitha Milli, Micah Carroll, Sashrika Pandey, Yike Wang, and Anca D Dragan. 2023.Twitter’s Algorithm: Amplifying Anger, Animosity, and Affective Polarization.arXiv preprint arXiv:2305.16941 (2023).
Muller (2014)Michael Muller. 2014.Curiosity, Creativity, and Surprise as Analytic Tools: Grounded Theory Method.In Ways of Knowing in HCI. Springer, 25–48.
Muller et al. (2016)Michael Muller, Shion Guha, Eric P.S. Baumer, David Mimno, and N. Sadat Shami. 2016.Machine Learning and Grounded Theory Method: Convergence, Divergence, and Combination. In Proceedings of the 2016 ACM International Conference on Supporting Group Work (Sanibel Island, Florida, USA) (GROUP ’16). Association for Computing Machinery, New York, NY, USA, 3–8.https://doi.org/10.1145/2957276.2957280
Nanayakkara et al. (2021)Priyanka Nanayakkara, Jessica Hullman, and Nicholas Diakopoulos. 2021.Unpacking the Expressed Consequences of AI Research in Broader Impact Statements. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (Virtual Event, USA) (AIES ’21). Association for Computing Machinery, New York, NY, USA, 795–806.https://doi.org/10.1145/3461702.3462608
OpenAI (2023)OpenAI. 2023.GPT-4 Technical Report.arXiv:2303.08774 [cs.CL]
Paul and Dredze (2011)Michael Paul and Mark Dredze. 2011.You Are What You Tweet: Analyzing Twitter for Public Health. In Proceedings of the international AAAI conference on web and social media, Vol. 5. 265–272.
Pham et al. (2023)Chau Minh Pham, Alexander Hoyle, Simeng Sun, and Mohit Iyyer. 2023.TopicGPT: A Prompt-based Topic Modeling Framework.arXiv:2311.01449 [cs.CL]
Ramage et al. (2010)Daniel Ramage, Susan T. Dumais, and Daniel J. Liebling. 2010.Characterizing Microblogs with Topic Models.Proceedings of the International AAAI Conference on Web and Social Media (2010).https://api.semanticscholar.org/CorpusID:11745061
Ramage et al. (2009)Daniel Ramage, Evan Rosen, Jason Chuang, Christopher D Manning, and Daniel A McFarland. 2009.Topic modeling for the social sciences. In NIPS 2009 workshop on applications for topic models: text and beyond, Vol. 5. 1–4.
Reimers and Gurevych (2019)Nils Reimers and Iryna Gurevych. 2019.Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics.https://arxiv.org/abs/1908.10084
Rietz and Maedche (2021)Tim Rietz and Alexander Maedche. 2021.Cody: An AI-Based System to Semi-Automate Coding for Qualitative Research. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (Yokohama, Japan) (CHI ’21). Association for Computing Machinery, New York, NY, USA, Article 394, 14 pages.https://doi.org/10.1145/3411764.3445591
Robinson et al. (2022)Joshua Robinson, Christopher Michael Rytting, and David Wingate. 2022.Leveraging large language models for multiple choice question answering.arXiv preprint arXiv:2210.12353 (2022).
Santurkar et al. (2023)Shibani Santurkar, Esin Durmus, Faisal Ladhak, Cinoo Lee, Percy Liang, and Tatsunori Hashimoto. 2023.Whose Opinions Do Language Models Reflect?arXiv:2303.17548 [cs.CL]
Sievert and Shirley (2014)Carson Sievert and Kenneth Shirley. 2014.LDAvis: A method for visualizing and interpreting topics. In Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. Association for Computational Linguistics, Baltimore, Maryland, USA, 63–70.https://doi.org/10.3115/v1/W14-3110
Suh et al. (2023)Sangho Suh, Bryan Min, Srishti Palani, and Haijun Xia. 2023.Sensecape: Enabling Multilevel Exploration and Sensemaking with Large Language Models. In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology (San Francisco, CA, USA) (UIST ’23). Association for Computing Machinery, New York, NY, USA, Article 1, 18 pages.https://doi.org/10.1145/3586183.3606756
Tsur et al. (2015)Oren Tsur, Dan Calacci, and David Lazer. 2015.A Frame of Mind: Using Statistical Models for Detection of Framing and Agenda Setting Campaigns. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics, Beijing, China, 1629–1638.https://doi.org/10.3115/v1/P15-1157
Viswanathan et al. (2023)Vijay Viswanathan, Kiril Gashteovski, Carolin Lawrence, Tongshuang Wu, and Graham Neubig. 2023.Large Language Models Enable Few-Shot Clustering.arXiv:2307.00524 [cs.CL]
Voelkel et al. (2023)Jan G Voelkel, Michael Stagnaro, James Chu, Sophia Pink, Joseph Mernyk, Chrystal Redekopp, Isaias Ghezae, Matthew Cashman, Dhaval Adjodah, Levi Allen, et al. 2023.Megastudy identifying effective interventions to strengthen Americans’ democratic attitudes.(2023).
Wang et al. (2023)Zihan Wang, Jingbo Shang, and Ruiqi Zhong. 2023.Goal-Driven Explainable Clustering via Language Descriptions.arXiv:2305.13749 [cs.CL]
Wei et al. (2022)Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022.Chain-of-thought prompting elicits reasoning in large language models.Advances in Neural Information Processing Systems 35 (2022), 24824–24837.
Xiao et al. (2023)Ziang Xiao, Xingdi Yuan, Q. Vera Liao, Rania Abdelghani, and Pierre-Yves Oudeyer. 2023.Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding. In Companion Proceedings of the 28th International Conference on Intelligent User Interfaces (Sydney, NSW, Australia) (IUI ’23 Companion). Association for Computing Machinery, New York, NY, USA, 75–78.https://doi.org/10.1145/3581754.3584136
Zhou et al. (2022)Kaitlyn Zhou, Kawin Ethayarajh, Dallas Card, and Dan Jurafsky. 2022.Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Association for Computational Linguistics, Dublin, Ireland, 401–423.https://doi.org/10.18653/v1/2022.acl-short.45
Ziems et al. (2024)Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, and Diyi Yang. 2024.Can Large Language Models Transform Computational Social Science?Computational Linguistics (02 2024), 1–55.https://doi.org/10.1162/coli_a_00502arXiv:https://direct.mit.edu/coli/article-pdf/doi/10.1162/coli_a_00502/2332904/coli_a_00502.pdf

附录A提示

A.1。 Distill 运算符：过滤步骤提示

⬇

I have the following TEXT EXAMPLE:

{text_example_json}

Please extract {n_quotes} QUOTES exactly copied from this EXAMPLE {seed_phrase}.

Please respond ONLY with a valid JSON in the following format:

{{

"relevant_quotes": [ "<QUOTE_1>", "<QUOTE_2>", ... ]

}}

A.2。 Distill 运算符：总结步骤提示

⬇

I have the following TEXT EXAMPLE:

{text_example_json}

Please summarize the main point of this EXAMPLE {seed_phrase} into

{n_bullets} bullet points, where each bullet point is a {n_words} word phrase.

Please respond ONLY with a valid JSON in the following format:

{{

"bullets": [ "<BULLET_1>", "<BULLET_2>", ... ]

}}

A.3。综合操作提示

⬇

I have this set of bullet point summaries of text examples:

{bullets_json}

Please write a summary of {n_concepts} unifying patterns for these examples {seed_phrase}.

For each high-level pattern, write a {n_name_words} word NAME for the pattern

and an associated 1-sentence ChatGPT PROMPT that could take in a new text example

and determine whether the relevant pattern applies.

Please also include {n_example_ids} example_ids for items that BEST exemplify the pattern.

Please respond ONLY with a valid JSON in the following format:

{{

"patterns": [

{{

"name": "<PATTERN_NAME_1>",

"prompt": "<PATTERN_PROMPT_1>",

"example_ids": ["<EXAMPLE_ID_1>", "<EXAMPLE_ID_2>"]

}},

{{

"name": "<PATTERN_NAME_2>",

"prompt": "<PATTERN_PROMPT_2>",

"example_ids": ["<EXAMPLE_ID_1>", "<EXAMPLE_ID_2>"]

}},

]

}}

A.4。分数操作员提示

⬇

CONTEXT:

I have the following text examples in a JSON:

{examples_json}

I also have a pattern named {concept_name} with the following PROMPT:

{concept_prompt}

TASK:

For each example, please evaluate the PROMPT by generating RATIONALE of your thought process

and providing a resulting ANSWER of ONE of the following multiple-choice options, including just the letter:

- A: Strongly agree

- B: Agree

- C: Neither agree nor disagree

- D: Disagree

- E: Strongly disagree

Respond with ONLY a JSON with the following format, escaping any quotes within strings with a backslash:

{{

"pattern_results": [

{{

"example_id": "<example_id>",

"rationale": "<rationale>",

"answer": "<answer>",

}}

]

}}

A.5。自动覆盖提示

⬇

I have this set of CONCEPTS:

{ground_truth_concepts}

I have this set of TEXTS:

{generated_concepts}

Please match at most ONE TEXT to each CONCEPT. To perform a match, the text must

EXACTLY match the meaning of the concept.

Do NOT match the same TEXT to multiple CONCEPTS.

Here are examples of VALID matches:

- Global Diplomacy, International Relations;

rationale: "The text is about diplomacy between countries."

- Statistical Data, Quantitative Evidence;

rationale: "The text is about data and quantitative measures."

- Policy and Regulation, Policy issues and legislation;

rationale: "The text is about policy, laws, and legislation."

Here are examples of INVALID matches:

- Reputation Impact, Immigration

- Environment, Politics and Law

- Interdisciplinary Politics, Economy

If there are no valid matches, please EXCLUDE the concept from the list.

Please provide a 1-sentence RATIONALE for your decision for any matches.

Please respond with a list of each concept and either the item it matches or NONE

if no item matches in this format:

{{

"concept_matches": [

{{

"concept_id": "<concept_id_number>",

"item_id": "<item_id_number or NONE>",

"rationale": "<rationale for match>",

}}

]

}}

Analyzing Unstructured Text with High-Level Concepts Using LLooM (14)

附录 B其他方法

B.1。专家案例研究：研究设计

专家案例研究需要具有数据分析专业知识的参与者：特别是那些对非结构化文本文档进行过分析的人。重要的是，他们已经进行了这种分析（以便他们对数据有足够的先验知识来区分有用和无用的概念）并且数据集可以公开共享（因为分析场景和专家案例研究将被发布）。因此，我们的资格标准是（1）分析师之前曾基于数据集撰写过学术出版物，以及（2）数据由非结构化文本文档组成。为了实现我们的探索性分析目标，我们通过大学环境中的联系人招募了 $N=2$ 参与者。专家1是通信与人机交互领域的博士后学者，研究兴趣为新兴媒体技术和以人为中心的人工智能。专家2是一名博士。人机交互和自然语言处理专业的学生，研究兴趣为计算社会科学和大规模数据挖掘。在学习课程之前，参与者对 LLooM 工作台及其功能一无所知。

对于 BERTopic 分析任务，为参与者提供了一个电子表格视图，其中填充了其数据集的 BERTopic 输出。摘要选项卡显示每个主题的关键字和大小；详细信息选项卡显示可过滤的视图，其中包含所有文档及其分配的主题。为了了解专家如何解释主题，我们首先让他们完成命名任务，为每个主题提供一个有意义的名称。然后，参与者被要求自由探索数据和主题。最后，我们让他们完成一项标注任务，确定每个主题是否有帮助（有助于他们理解数据集）、可解释（具有可辨别的含义）和独特（与另一个主题不具有相同的含义）话题）。对于 LLooM 分析任务，参与者通过已填充了 LLooM 为其数据集生成的概念的计算笔记本访问 LLooM 工作台。参与者被要求回顾生成的概念，然后根据自己的兴趣自由探索数据。在本节结束时，我们要求参与者完成一项概念修改任务，以编辑或添加一个新概念。总而言之，我们让他们完成了关于 LLooM 概念的相同标注任务。

会议大致分为 5 分钟用于同意和设置、15 分钟用于使用 BERTopic 进行分析、5 分钟用于 BERTopic 上的采访后、5 分钟用于 LLooM Workbench 教程、15 分钟用于使用 LLooM Workbench 进行分析以及 10 分钟用于关于 LLooM 的最终采访以及他们对这两种工具的总体体验。每次会议都是通过视频通话远程进行，参与者获得了一张价值 45 美元的亚马逊礼品卡。

附录 C其他结果

C.1。场景 4：调查人工智能研究的预期后果

2020 年，顶级机器学习研究会议 NeurIPS 要求作者在提交的材料中包含更广泛的影响声明，以鼓励研究人员考虑其工作的负面后果。这些陈述为了解广大人工智能研究人员的道德思维过程提供了一个窗口，之前的工作已经对 300 个陈述的样本进行了定性主题分析（Nanayakkara 等人，2021）。使用此数据集，我们探索 LLooM 如何帮助我们了解人工智能研究人员如何讨论下游后果、道德问题和潜在的缓解措施。

C.1.1。结果

LLooM 生成了 $14$ 独特的概念，包括“对抗性攻击和防御”、“隐私问题”和“能源节约”等示例，如图14所示。相比之下，BERTopic 仅生成带有“社会、后果、可预见”和“学习、工作、数据”等关键字的 $2$ 主题。 BERTopic 主题都很通用（我们的手动分析将主题映射到“机器学习技术”和“道德与社会影响”标签）。由于这些主题可能会用作所有影响陈述的类别标签，因此它们无法帮助分析师将数据分解为新兴趋势。 LLooM 结果还包括一些更通用的概念（例如“社会影响”），但它也确定了陈述中提到的特定影响类型，包括积极影响（例如“节能”、 “泛化改进”、“改进的训练技术”和“高效的机器学习算法”）和负面影响（例如“隐私问题”、“对抗性攻击”）。此外，这些概念概括了人工智能研究下游影响的建议解决方案（例如“对抗性防御”、“验证的重要性”）。

虽然 BERTopic 结果的 $100\%$ 与 LLooM 重叠，但只有 $14.3\%$ 的 LLooM 结果与 BERTopic 重叠，因此 LLooM 概念中有很大一部分是新颖的贡献。此处，没有一个示例未按 BERTopic 分类，而 $9.3\%$ 未按 LLooM 分类。然而，两个 BERTopic 结果之一（“学习、工作、数据”）似乎是一个模糊的包罗万象的主题； BERTopic 向该组分配了 $93.3\%$ 个示例。

C.2。概念分类评价

我们使用 Score 运算符对 LLooM 自动概念分类的可靠性进行了额外评估。为了评估 LLooM 与人类判断的一致性，我们对 LLooM 生成的概念进行采样，收集每个概念文档上的人类注释，并将结果与 LLooM 分数进行比较。

C.2.1。方法

为了进行此评估，我们从四个 LLooM 场景数据集中对概念进行了采样。为了捕获系统在罕见和常见概念上的性能，我们根据概念流行度（LLooM 分类为匹配概念的文档的比例）执行分层随机抽样。⁸⁸8只有当示例收到“强烈同意”的标注（最有信心的标签选项）时，我们才会保守地将示例分类为正面。所有其他标签选项均被视为负面。对于每个数据集，我们从概念流行度的每个四分位数中抽取一个概念，总共四个概念。然后，对于每个选定的概念，我们通过对 50 个正面文档（那些被分类为与概念匹配的文档）和 50 个负面文档进行分层随机抽样，构建了具有 $n=100$ 文档的平衡数据集。对于少于 50 个正面文档的罕见概念，其余部分是从负面文档的随机样本中抽取的。

下面是每个数据集的抽样概念：

•
党派仇恨数据集：
- –
  倡导：文本示例是否主张某个原因或问题？
- –
  事件：此文本示例与事件相关吗？
- –
  政党立场：文本示例是否提及政党的立场或行动？
- –
  社会正义焦点：文本示例是否强调努力实现公正的未来？
•
有毒内容数据集：
- –
  表达沮丧：文本示例是否涉及表达沮丧或怀疑？
- –
  男性对不公平待遇的看法：文本示例是否讨论了男性在社会中感到不公平待遇的情况？
- –
  寻求解释：文本示例是否寻求对某种行为的解释？
- –
  对女性的刻板印象：文本示例是否涉及对女性的刻板印象？
•
UIST 摘要数据集：
- –
  原型系统的应用：文本示例是否讨论了原型系统在各种接口中的应用？
- –
  笔式输入和交互：文本示例是否涉及精确的笔式输入和处理交互？
- –
  用户体验增强：示例是否描述了丰富用户体验的产品或技术？
- –
  VR 评估：文本示例是否涉及评估和提高 VR 沉浸感？
•
NeurIPS 语句数据集：
- –
  验证的重要性：文本示例是否强调验证数据或系统的重要性？
- –
  新框架提案：文本示例是否提出了新框架？
- –
  潜在的好处和风险：该示例是否讨论了潜在的好处和风险？
- –
  广泛的应用空间：该示例是否提到了通用对象的广泛应用空间？

为了评估评估者间的可靠性，研究团队的两名成员独立注释了一个数据集（党派仇恨数据集）的四个采样概念，每人总共注释了 400 个文档。一位评估者对其余三个数据集的文档进行了注释。对于每个文档，根据概念名称和包含标准，每个注释者从 LLooM Synthesize 操作提示中提供给 GPT-4 的相同多项选择选项中进行选择，范围从是否“强烈同意” “强烈不同意”该文件与概念相符。然后，我们将这些手动分数与 LLooM 在概念评分步骤中生成的分数进行比较。对于评估者间的可靠性，我们使用 Cohen 的 $\kappa$ ，因为我们只考虑成对的评估者，我们的量表是分类的（二进制标签），并且我们的数据大致平衡。

C.2.2。结果

对于跨数据集的分类指标，我们观察到平均准确度为 $0.91$ 、精确度为 $0.70$ 、召回率为 $0.59$ 和 F1 得分为 $0.59$ ;每个数据集的指标结果如图15和表1所示。鉴于该集合中的概念相当复杂，并且文档是相对较长的文本示例，因此评分过程取得了相对较强的性能结果。然而，这种性能在不同数据集和数据集中的概念之间差异很大。

为了提供这种变异性的比较点，我们计算了 LLooM 和每个人类注释者之间以及两个人类注释者（A1 和 A2）之间的评估者间可靠性。在这四个概念中，两个人类注释者之间的 Cohen $\kappa$ 为 0.64；同时，LLooM 和 A1 之间的 IRR 为 0.63，LLooM 和 A2 之间的 IRR 为 0.645。因此，LLooM 的注释性能与其他人类注释者相当。表 2 中报告了每个概念的 IRR 值。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (15)

Dataset	Accuracy	Precision	F1 Score
NeurIPS Statements	0.90 (0.02)	0.61 (0.05)	0.55 (0.14)
Partisan Animosity	0.90 (0.02)	0.95 (0.01)	0.68 (0.10)
Toxic Content	0.91 (0.02)	0.65 (0.27)	0.61 (0.18)
UIST Abstracts	0.92 (0.04)	0.59 (0.25)	0.53 (0.12)

Analyzing Unstructured Text with High-Level Concepts Using LLooM (16)

Concept	A1-A2	LLooM-A1	LLooM-A2
Advocacy: Does the text example advocate for a cause or issue?	0.60	0.74	0.78
Event: Is this text example related to an event?	0.57	0.69	0.57
Political Party Positions: Does the text example mention the positions or actions of political parties?	0.67	0.63	0.70
Social Justice Focus: Does the text example emphasize working towards a just future?	0.64	0.46	0.53

定性分析 LLooM 与人类注释者不一致的错误情况，我们发现 LLooM 注释通常显得合理；他们对文本的解释往往看似合理，但又有所不同。对于 LLooM 将文档标记为与概念匹配而人类注释者 (A1) 未标记为匹配的误报，差异似乎源于概念匹配的不同阈值。一般来说，LLooM 更有可能将示例标记为对概念有利的示例，尤其是对于边缘情况。然而，考虑到其中许多概念的主观性质，其决策似乎属于合理性的灰色地带。例如，以下示例被 LLooM 标记为 Advocacy 概念的正面，而人类注释者则将该示例标记为负面：“今天之所以成为可能，是因为宾夕法尼亚州民主党人组织起来、敲门、捐赠，并投票了。”在这种情况下，文本隐含地引用了支持的原因或问题，但没有明确提倡某个原因。这种主观性可能会合理地导致不同的标签。

同时，对于人工注释者将文档标记为与概念匹配而 LLooM 不匹配的假阴性，一个常见的趋势是这些示例需要更深层次的专业知识或对细微差别的理解。这可能是像 GPT-3.5 这样的大语言模型的失败模式，它是 LLooM Score 算子的基础。例如，使用与上面相同的倡导概念，以下示例（摘录）被人类注释者标记为正面，而 LLooM 将示例标记为负面：“[…]我将努力确保Head Start 和早期 Head Start 拥有为佐治亚州中部数以千计的儿童提供服务所需的资源。”该文本没有明确倡导一项事业或要求其他人加入典型的倡导语言，但它提到了一项特定的政府计划（Head Start），该计划旨在促进低收入家庭的学龄前儿童做好入学准备。注释者拥有这些知识，并将文本解释为倡导这一事业，而大语言模型可能没有这种背景。

总体而言，这种评估和错误分析支持了早期的证据，即 LLooM 的标注水平与其他人类注释者相当，但它无法避免主观标注任务所产生的固有分歧（Gordon 等人，2021）。

Analyzing Unstructured Text with High-Level Concepts Using LLooM (17)

Analyzing Unstructured Text with High-Level Concepts Using LLooM (18)

Analyzing Unstructured Text with High-Level Concepts Using LLooM (19)

C.3。技术评估：概念生成输出

我们在基准数据集（Wiki 和 Bills）以及第 5 节中技术评估的合成数据集上提供了 LLooM、BERTopic、GPT-4 和 GPT-4-Turbo 的示例输出。对于每个数据集，我们采样了三个真实主题。然后，对于这四种方法中的每一种，我们从所有试验中抽取了最多三个与真实主题相匹配的生成概念。我们在图 17 中显示了 Wiki 数据集“视频游戏”、“工程和技术”和“音乐”概念的结果。我们在图 18 中显示了 Bills 数据集“交通”、“环境”和“教育”概念的结果。我们在图 19 中显示了“医疗保健”、“移民”和“经济”概念的合成数据集的结果。

C.4。技术评估：综合数据集概念

为了生成合成数据，我们使用了以下 10 个通用概念和 40 个特定概念：

(1)
通用：竞选活动，具体：筹款、候选人简介、政治集会、竞选承诺
(2)
通用：政府政策，具体：医疗保健政策、教育政策、国际关系政策、经济政策
(3)
一般：政党，具体：政党纲领、政党领导、政党历史、政党派系
(4)
一般：人权，具体：LGBTQ+ 权利、妇女权利、种族平等、儿童权利
(5)
通用：移民，具体：边境管制政策、难民政策、移民改革、非法移民
(6)
通用：经济，具体：税收、失业、财政政策、政府支出
(7)
通用：医疗保健，具体：全民医疗保健、心理健康、药物政策、健康保险
(8)
通用：环境，具体：气候变化、可再生能源、自然保护、空气污染
(9)
通用：外交政策，具体：贸易协定、战争与和平、外交关系、国际援助
(10)
通用：枪支管制，具体：背景调查、攻击性武器禁令、枪支管制立法、第二修正案权利

Analyzing Unstructured Text with High-Level Concepts Using LLooM (2024)

摘要。

1. 介绍

2. 相关工作

2.1. 主题建模和聚类：自动化概念开发

2.2. 定性分析：手动概念开发

2.3. 人工智能辅助数据分析：混合主动概念开发

3. LLooM：使用大型语言模型进行概念归纳

3.1. LLoOM 算法

3.1.1. 概念生成

辅助操作员

3.1.2. 概念评分

3.1.3. 实施细节

3.1.4. 算法限制

3.2. LLooM 工作台

3.2.1. 工作台组件

3.2.2. 工作台操作

3.2.3. 实施细节

4. LLooM 场景

4.1. 方法

4.1.1. 基线结果生成

4.1.2. 基线定性分析

4.2. 场景 1：制定有毒内容的审核政策

4.2.1. 结果

4.3. 场景 2：减轻社交媒体上的党派仇恨

4.3.1. 结果

4.4. 场景 3：分析 UIST 论文摘要

4.4.1. 结果

4.5. 场景限制

5. 技术评估

5.1. 概念生成：基准数据集

5.1.1. 公制

5.1.2. 方法

5.1.3. 数据集

5.1.4. 结果

5.2. 概念生成：综合数据集

5.2.1. 数据集生成

5.2.2. 方法

5.2.3. 结果

5.3. 概念分类

6. 专家案例研究

6.1. 专家 1：减轻社交媒体上的党派仇恨

6.1.1. BER主题分析过程——理解模糊和重叠的主题

6.1.2. LLooM 分析过程——通过概念的视角探索数据

6.1.3. 采访要点

6.2. 专家 2：分析 UIST 论文摘要

6.2.1. BERTopic 分析流程——处理不连贯和过于笼统的主题

6.2.2. LLooM 分析过程——利用概念探索假设

6.2.3. 采访要点

7. 讨论

7.1. 设计意义

7.1.1. 重新设计数据分析抽象​​以支持理论驱动的分析

7.1.2. 引入自动化以帮助反思分析过程

7.1.3. 创新我们的核心算法运算符

7.2. 局限性和未来的工作

7.2.1. 不确定的大语言模型行为：跨域性能不均匀的风险

7.2.2. 闭源大语言模型的缺点：成本和缺乏透明度

7.2.3. 分析师的潜在偏见

8. 结论

致谢。

参考

附录A提示

A.1。 Distill 运算符：过滤步骤提示

A.2。 Distill 运算符：总结步骤提示

A.3。 综合操作提示

A.4。 分数操作员提示

A.5。 自动覆盖提示

附录 B其他方法

B.1。 专家案例研究：研究设计

附录 C其他结果

C.1。 场景 4：调查人工智能研究的预期后果

C.1.1。 结果

C.2。 概念分类评价

C.2.1。 方法

C.2.2。 结果

C.3。 技术评估：概念生成输出

C.4。 技术评估：综合数据集概念

7.1.1. 重新设计数据分析抽象以支持理论驱动的分析

A.3。综合操作提示

A.4。分数操作员提示

A.5。自动覆盖提示

B.1。专家案例研究：研究设计

C.1。场景 4：调查人工智能研究的预期后果

C.1.1。结果

C.2。概念分类评价

C.2.1。方法

C.2.2。结果

C.3。技术评估：概念生成输出

C.4。技术评估：综合数据集概念