BI 论文阅读

还是挺开心的!似乎大三这一整年的迷茫和摸索终于有了一个立足之处。希望我的热情能重新在这里燃起。


Explaining Queries

Explaining Queries over Web Tables to Non-Experts 1808

是一篇前 LLM 时代的文章,还能看到 semantic parser,好有年代感呀!大概是给 web query 算法做了一些可解释性 (包括自然语言解释与可视化),让用户也能参与决策,从而提高查询准确率。

整个系统主要由四个 component 构成:

  • Semantic Parser:把用户的 NL question 翻译成一系列 candidate formal queries (lambda DCS)。
  • Query Explanation Engine:输入 lambda DCS query,生成两种解释:
    • NL utterances
    • Provenance-Based Highlights:可视化。把 query 所涉及的 table cell 高亮处理。
  • User Interaction Interface:用户可以查看每个 candidate query 的解释,并从中选出最正确的一个。
  • Retraining System (离线):根据用户 feedback (一系列 question-query pairs) 训练 semantic parser。

关于 lambda DCS:一种 rule-based 语言,用于桥接 NL query 与 SQL。


Why AI not a Panacea

Why is AI not a Panacea for Data Workers? An Interview Study on HAC in Data Storytelling 2304

挺新奇的,是一篇访谈纪要式的文章,我还是第一次读到这种。采访了 18 位 data storytelling 相关领域的人士。问题有三:1. 在哪些方面与 AI 协作?2. 如何与 AI 协作?3. 为何或为何不青睐与 AI 协作?

可以看到这篇论文里提到的一些问题有在一定程度上得到解决。比如 AI 的单一模态问题,就现在来说大部分模型都已经有相对成熟的图像理解能力了。

这篇论文在宏观上把 data storytelling workflow 定义为三个非线性的阶段:

  • Planning: Decide core message, collect facts, outline story
  • Implementation: Prepare pieces and integrate them, style
  • Communication: Share the story

AI 承担的角色 (能动性由高到低):

  • Creator: Fully performs a task
  • Optimizer: Enhance human-created content
  • Reviewer: Evaluates and suggests improvement
  • Assistant: Provides suggestions/support without modifying content


DataNarrative

DATANARRATIVE: Automated Data-Driven Storytelling with Visualization and Texts 2408

一个 agentic framework 和一个 benchmark。这个范式我倒是挺熟悉的。

一条 data 包括:

  • 一系列 data tables (包括 chart images,描述文本,元数据) \(D\)
  • 一个 user intent 或者说 story theme \(I\)
  • 其他的 guidelines \(G\)

数据从 Pew,Tableau,GapMinder 三个地方洗出来,一般来说一篇文章对应一条数据。把 HTML 爬下来之后手工或者 LLM 筛选文章中的图表与对应的描述文本,user intention 的话就直接用文章标题。

这个 framework 则包括两个 LLM agent,actor 与 critic,分两阶段三步骤:

  • Planning stage
    • Reflection: 对输入的 data tables 进行全面理解与分析
    • Outline generation:根据 reflection 的内容生成故事大纲
  • Narration stage
    • 故事生成阶段,包括叙述文本与相关的视图 (visualizations)

对于每一个步骤,actor 首先生成一版,critic 进行检查并提供修改建议,actor 再根据这些 feedback 进行 refine。因此一次生成会涉及 \(3\times 3=9\) 次模型调用。

Evaluation 由 LLM 与 human judges 完成。其中,原来的文章内容作为 soft label 提供给 LLM 裁判进行参考,用于比较 agentic approach 与 direct prompting 生成的故事哪个更优。这也算是 open-ended NLG eval 的一种常见范式了。


A Survey on Annotations

A Survey on Annotations in InfoVis: Empirical Insights, Applications, and Challenges 2410

也是一篇挺神奇的论文。针对可视化中的 annotations (图表中的标示,批注等补充说明的元素) 写了一篇研究综述。


-----------------------------------そして、次の曲が始まるのです。-----------------------------------