ESURF: Simple and Effective EDU Segmentation

Mohammadreza Sediqin, Shlomo Engelson Argamon

2025-01-13Discourse Parsing

Abstract

Segmenting text into Elemental Discourse Units (EDUs) is a fundamental task in discourse parsing. We present a new simple method for identifying EDU boundaries, and hence segmenting them, based on lexical and character n-gram features, using random forest classification. We show that the method, despite its simplicity, outperforms other methods both for segmentation and within a state of the art discourse parser. This indicates the importance of such features for identifying basic discourse elements, pointing towards potentially more training-efficient methods for discourse analysis.

Related Papers

CoMuMDR: Code-mixed Multi-modal Multi-domain corpus for Discourse paRsing in conversations2025-06-10 Acquired TASTE: Multimodal Stance Detection with Textual and Structural Embeddings2024-12-04 GDTB: Genre Diverse Data for English Shallow Discourse Parsing across Modalities, Text Types, and Domains2024-11-01 Bilingual Rhetorical Structure Parsing with Large Parallel Annotations2024-09-23 Llamipa: An Incremental Discourse Parser2024-06-26 Unsupervised Mutual Learning of Dialogue Discourse Parsing and Topic Segmentation2024-05-30 Can we obtain significant success in RST discourse parsing by using Large Language Models?2024-03-08 Prompt-based Logical Semantics Enhancement for Implicit Discourse Relation Recognition2023-11-01