Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

核心发现

方法论

本文提出了一种双轨分类管道，应用于PRDECT-ID数据集。第一轨道使用TF-IDF向量化与PyCaret AutoML进行标准分类器的交叉验证。第二轨道是一个PyTorch双向长短时记忆网络（BiLSTM），具有共享编码器和两个任务特定的输出头。预处理模块应用了14个顺序清理步骤，包括一个从市场语料库中汇编的140条俚语词典。四种配置被基准测试：BiLSTM基础版、BiLSTM改进版、BiLSTM大版和TextCNN。训练使用类加权交叉熵损失、ReduceLROnPlateau调度和早停策略。

关键结果

在二元情感分类任务中，TF-IDF与最佳AutoML模型表现最佳，准确率、精确率、召回率和F1均达到0.9574。相比之下，深度学习模型的F1得分在0.8474到0.8609之间。
在五类情绪分类任务中，TextCNN模型表现最好，准确率为0.5399，Macro-F1为0.5077，AUC为0.8458。
实验结果表明，情绪分类比情感分类更具挑战性，所有模型的表现均较低。

研究意义

该研究通过提出一种结合传统机器学习和深度学习的混合方法，有效解决了印尼电商评论中情感和情绪分类的挑战。特别是对于包含俚语、区域借词和表情符号的非正式文本，该方法展示了其优越性。研究结果不仅在学术界具有重要意义，推动了低资源语言的自然语言处理研究，还在工业界具有实际应用价值，特别是对于需要自动化情感分析的电商平台。

技术贡献

本文的技术贡献在于结合了TF-IDF与AutoML的传统方法与BiLSTM和TextCNN的深度学习方法，形成了一种多任务学习框架。该框架不仅在情感和情绪分类中表现出色，还提供了一个灵活的模型注册系统，可以通过简单的字符串键切换配置。此外，本文还提供了一个全面的预处理模块，显著提高了模型的鲁棒性。

新颖性

本研究首次将多任务BiLSTM与AutoML结合用于印尼电商评论的情感和情绪分类。与以往研究相比，该方法不仅提高了分类精度，还通过详细的预处理步骤解决了非正式文本中的多样性问题。

局限性

该方法在情绪分类任务中的表现仍有提升空间，特别是在处理类别不平衡时。
虽然预处理模块有效，但其复杂性可能导致处理时间较长，影响实时应用。
模型在处理极端非正式或新兴俚语时可能表现不佳。

未来方向

未来的研究方向包括优化情绪分类模型的性能，特别是在类别不平衡的情况下。此外，可以探索更高效的预处理方法，以减少处理时间并提高实时应用的可行性。还可以考虑将该框架应用于其他低资源语言的情感和情绪分析。

AI 总览摘要

在印尼的电商平台上，每天都有数以百万计的产品评论被撰写。这些评论不仅包含标准的词汇，还夹杂着俚语、区域借词、数字缩写和表情符号，使得基于词典的情感分析工具在实际应用中不够可靠。现有的研究表明，深度学习模型在用户生成的评论文本中表现优异，但印尼市场的评论由于其非正式的词汇、领域特定的缩写和拼写变化，仍然是一个挑战。

本文提出了一种结合传统机器学习和深度学习的混合方法，应用于PRDECT-ID数据集。该数据集包含5400条来自29个印尼电商类别的产品评论，每条评论都标有二元情感（正面/负面）和五类情绪（快乐、悲伤、恐惧、爱、愤怒）。研究采用了两条分类管道：第一条使用TF-IDF向量化与PyCaret AutoML进行标准分类器的交叉验证；第二条是一个PyTorch双向长短时记忆网络（BiLSTM），具有共享编码器和两个任务特定的输出头。

在实验中，TF-IDF与最佳AutoML模型在二元情感分类任务中表现最佳，准确率、精确率、召回率和F1均达到0.9574。相比之下，深度学习模型的F1得分在0.8474到0.8609之间。在五类情绪分类任务中，TextCNN模型表现最好，准确率为0.5399，Macro-F1为0.5077，AUC为0.8458。

研究结果表明，情绪分类比情感分类更具挑战性，所有模型的表现均较低。该研究通过提出一种结合传统机器学习和深度学习的混合方法，有效解决了印尼电商评论中情感和情绪分类的挑战。特别是对于包含俚语、区域借词和表情符号的非正式文本，该方法展示了其优越性。

未来的研究方向包括优化情绪分类模型的性能，特别是在类别不平衡的情况下。此外，可以探索更高效的预处理方法，以减少处理时间并提高实时应用的可行性。还可以考虑将该框架应用于其他低资源语言的情感和情绪分析。

深度分析

研究背景

情感分析和情绪识别是自然语言处理领域的两个重要研究方向。近年来，随着深度学习技术的发展，这两个领域取得了显著进展。特别是在低资源语言的情感分析中，深度学习模型展示了其优越性。然而，印尼市场的评论由于其非正式的词汇、领域特定的缩写和拼写变化，仍然是一个挑战。现有的研究表明，深度学习模型在用户生成的评论文本中表现优异，但印尼市场的评论由于其非正式的词汇、领域特定的缩写和拼写变化，仍然是一个挑战。

核心问题

印尼电商评论中混合了标准词汇、俚语、区域借词、数字缩写和表情符号，使得基于词典的情感分析工具在实际应用中不够可靠。现有的研究表明，深度学习模型在用户生成的评论文本中表现优异，但印尼市场的评论由于其非正式的词汇、领域特定的缩写和拼写变化，仍然是一个挑战。

核心创新

本文的核心创新在于结合了TF-IDF与AutoML的传统方法与BiLSTM和TextCNN的深度学习方法，形成了一种多任务学习框架。该框架不仅在情感和情绪分类中表现出色，还提供了一个灵活的模型注册系统，可以通过简单的字符串键切换配置。此外，本文还提供了一个全面的预处理模块，显著提高了模型的鲁棒性。

方法详解

�� 使用TF-IDF向量化对预处理后的文本序列进行特征提取。
�� 采用PyCaret AutoML框架训练和交叉验证一系列分类模型，包括逻辑回归、随机森林、LightGBM、Extra Trees和SVM。
�� 使用PyTorch实现的双向长短时记忆网络（BiLSTM），具有共享编码器和两个任务特定的输出头。
�� 预处理模块应用了14个顺序清理步骤，包括一个从市场语料库中汇编的140条俚语词典。
�� 四种配置被基准测试：BiLSTM基础版、BiLSTM改进版、BiLSTM大版和TextCNN。
�� 训练使用类加权交叉熵损失、ReduceLROnPlateau调度和早停策略。

实验设计

实验设计包括使用PRDECT-ID数据集，该数据集包含5400条来自29个印尼电商类别的产品评论。实验采用了两条分类管道：第一条使用TF-IDF向量化与PyCaret AutoML进行标准分类器的交叉验证；第二条是一个PyTorch双向长短时记忆网络（BiLSTM），具有共享编码器和两个任务特定的输出头。实验中使用了类加权交叉熵损失、ReduceLROnPlateau调度和早停策略。

结果分析

在二元情感分类任务中，TF-IDF与最佳AutoML模型表现最佳，准确率、精确率、召回率和F1均达到0.9574。相比之下，深度学习模型的F1得分在0.8474到0.8609之间。在五类情绪分类任务中，TextCNN模型表现最好，准确率为0.5399，Macro-F1为0.5077，AUC为0.8458。实验结果表明，情绪分类比情感分类更具挑战性，所有模型的表现均较低。

应用场景

该研究的应用场景包括印尼电商平台的自动化情感分析，特别是对于需要处理包含俚语、区域借词和表情符号的非正式文本的场合。该方法可以帮助电商平台更好地理解用户的情感和情绪，从而提高用户体验和满意度。

局限与展望

该方法在情绪分类任务中的表现仍有提升空间，特别是在处理类别不平衡时。虽然预处理模块有效，但其复杂性可能导致处理时间较长，影响实时应用。模型在处理极端非正式或新兴俚语时可能表现不佳。未来的研究方向包括优化情绪分类模型的性能，特别是在类别不平衡的情况下。此外，可以探索更高效的预处理方法，以减少处理时间并提高实时应用的可行性。

通俗解读非专业人士也能看懂

想象一下你在一个市场上购物，那里有各种各样的商品和顾客。每个顾客在购买后都会留下评论，有些评论是积极的，有些则是消极的。我们的任务是自动识别这些评论的情感和情绪。就像一个聪明的助手，它能快速阅读每条评论，并告诉你顾客是开心、悲伤、还是生气。

为了做到这一点，我们使用了一种聪明的方法，结合了传统的统计方法和现代的机器学习技术。首先，我们像一个图书管理员一样，统计每个词在评论中出现的频率，然后用这些信息来帮助我们理解评论的整体情感。

接下来，我们使用了一种叫做BiLSTM的高级技术，它就像一个能同时向前和向后看的阅读器，能够更好地理解评论中的上下文。最后，我们还用了一种叫做TextCNN的技术，它就像一个能识别评论中重要词汇的放大镜，帮助我们更精确地识别情绪。

通过这些方法，我们可以更准确地理解顾客的情感和情绪，就像一个经验丰富的市场分析师，能够快速识别顾客的满意度和不满之处。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗，当你在网上购物时，你写的每一个评论都在告诉商家你对他们的产品有多满意。想象一下，如果有一个超级聪明的机器人能读懂每一条评论，并告诉商家你是开心、悲伤还是生气，那会多酷！

这篇研究就像是给这个机器人装上了一个超级大脑。首先，它会像一个超级侦探一样，分析每个评论中的每个词，看看哪个词出现得最多。然后，它会用这些信息来猜测评论的整体情感。

接下来，它会用一种叫做BiLSTM的技术，这种技术就像一个能同时向前和向后看的超级阅读器，能够更好地理解评论中的意思。最后，它还用了一种叫做TextCNN的技术，就像一个能识别评论中重要词汇的超级放大镜，帮助它更精确地识别情绪。

通过这些方法，这个机器人可以更准确地理解你的情感和情绪，就像一个经验丰富的市场分析师，能够快速识别你的满意度和不满之处。是不是很酷！

术语表

情感分析 (Sentiment Analysis)

情感分析是一种自然语言处理技术，用于识别和分类文本中的情感倾向，如正面、负面或中性。

在本文中，情感分析用于识别印尼电商评论中的情感倾向。

情绪识别 (Emotion Recognition)

情绪识别是识别和分类文本中更细致的情绪状态，如快乐、悲伤、愤怒等。

本文中，情绪识别用于分类印尼电商评论中的五类情绪。

双向长短时记忆网络 (BiLSTM)

BiLSTM是一种能够同时在前向和后向序列上进行信息传播的神经网络，适用于处理序列数据。

本文中，BiLSTM用于处理评论文本的上下文信息。

自动机器学习 (AutoML)

AutoML是一种自动化选择、训练和优化机器学习模型的技术。

本文中，AutoML用于选择最佳的情感分类模型。

TF-IDF

TF-IDF是一种统计方法，用于评估文本中一个词的重要性，基于词频和逆文档频率。

本文中，TF-IDF用于提取评论文本的特征。

TextCNN

TextCNN是一种卷积神经网络结构，专用于文本分类任务，能够识别文本中的局部特征。

本文中，TextCNN用于情绪分类任务。

预处理 (Preprocessing)

预处理是对原始数据进行清理和转换的过程，以便更好地进行分析。

本文中，预处理包括清理评论文本中的俚语和特殊符号。

ReduceLROnPlateau

ReduceLROnPlateau是一种学习率调度策略，当模型性能不再提升时，自动降低学习率。

本文中，该策略用于优化模型训练。

类加权交叉熵损失 (Class-weighted Cross-Entropy Loss)

一种损失函数，通过为每个类别分配不同的权重，来处理类别不平衡问题。

本文中，该损失函数用于情感和情绪分类任务。

早停策略 (Early Stopping)

早停策略是一种防止模型过拟合的技术，通过在验证集性能不再提升时停止训练。

本文中，该策略用于优化模型训练过程。

开放问题这项研究留下的未解疑问

1 如何进一步提高情绪分类模型在类别不平衡情况下的性能？现有的方法在处理类别不平衡时表现有限，需要开发新的策略来增强模型的鲁棒性。
2 在处理极端非正式或新兴俚语时，模型的表现不佳。如何设计更灵活的模型来适应这些变化？
3 预处理模块的复杂性可能导致处理时间较长，影响实时应用。如何优化预处理步骤以提高效率？
4 在多任务学习框架中，如何更好地共享和分配任务间的信息，以提高整体性能？
5 如何将该框架应用于其他低资源语言的情感和情绪分析？需要哪些调整和优化？

应用场景

近期应用

电商平台情感分析

该方法可以帮助电商平台自动分析用户评论的情感倾向，提高用户体验和满意度。

市场调研

通过分析用户评论中的情感和情绪，企业可以更好地了解消费者的需求和偏好，优化产品和服务。

社交媒体监控

该技术可以用于实时监控社交媒体上的用户情感，帮助品牌管理和危机公关。

远期愿景

多语言情感分析

将该框架扩展到其他语言，特别是低资源语言，推动全球范围内的情感分析研究。

智能客服系统

结合情感和情绪分析技术，开发更智能的客服系统，能够更好地理解和响应用户的情感需求。

原文摘要

Indonesian marketplace reviews mix standard vocabulary with slang, regional loanwords, numeric shorthands, and emoji, making lexicon-based sentiment tools unreliable in practice. This paper describes a two-track classification pipeline applied to the PRDECT-ID dataset, which contains 5,400 product reviews from 29 Indonesian e-commerce categories, each labeled for binary sentiment (Positive/Negative) and five-class emotion (Happy, Sad, Fear, Love, Anger). The first track applies TF-IDF vectorization with a PyCaret AutoML sweep across standard classifiers. The second track is a PyTorch Bidirectional Long Short-Term Memory (BiLSTM) network with a shared encoder and two task-specific output heads. A preprocessing module applies 14 sequential cleaning steps, including a 140-entry slang dictionary assembled from marketplace corpora. Four configurations are benchmarked: BiLSTM Baseline, BiLSTM Improved, BiLSTM Large, and TextCNN. Training uses class-weighted cross-entropy loss, ReduceLROnPlateau scheduling, and early stopping. Both tracks are deployed as Gradio applications on Hugging Face Spaces. Source code is publicly available at https://github.com/ikii-sd/pba2026-crazyrichteam.

cs.CL

参考文献 (9)

Comparative Study of BiLSTM and GRU for Sentiment Analysis on Indonesian E-Commerce Product Reviews Using Deep Sequential Modeling

K. Nasution, Khairun Saddami, R. Roslidar 等

2025 2 引用

Emotion classification of Indonesian Tweets using Bidirectional LSTM

A. Glenn, Phillip M. LaCasse, Bruce A. Cox

2023 33 引用

Analisis Sentimen Ulasan Pengguna GoPay di Google Play Store menggunakan Model IndoELECTRA

Lisna Rahma Fitriati, Rangga Gelar Guntara, B. Purwaamijaya

2025 1 引用

A Comparison of BiLSTM, BERT, and Ensemble Method for Emotion Recognition on Indonesian Product Reviews

Rio Pramana, M. Jonathan, Habel Steven Yani 等

2024 15 引用

Emotion Detection Using Contextual Embeddings for Indonesian Product Review Texts on E-commerce Platform

Amelia Devi, Putri Ariyanto, Fari Katul Fikriah 等

2024 3 引用

Analisis Sentimen Wacana Pemindahan Ibu Kota Indonesia Menggunakan Algoritma Support Vector Machine (SVM)

Primandani Arsi, Retno Waluyo

2021 124 引用

Deep Learning for Aspect-Based Sentiment Analysis on Indonesian Hotels Reviews

Siwi Cahyaningtyas, D. Fudholi, Ahmad Fathan Hidayatullah

2021 23 引用

Research on Sentimental Evaluation of E-commerce Product Reviews Based on the BiLSTM-Attention Mechanism

Yuhan Wang

2026 1 引用

PRDECT-ID: Indonesian product reviews dataset for emotions classification tasks

Rhio Sutoyo, Said Achmad, Andry Chowanda 等

2022 31 引用

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

情感分析 (Sentiment Analysis)

情绪识别 (Emotion Recognition)

双向长短时记忆网络 (BiLSTM)

自动机器学习 (AutoML)

TF-IDF

TextCNN

预处理 (Preprocessing)

ReduceLROnPlateau

类加权交叉熵损失 (Class-weighted Cross-Entropy Loss)

早停策略 (Early Stopping)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

电商平台情感分析

市场调研

社交媒体监控

远期愿景

多语言情感分析

智能客服系统

原文摘要

参考文献 (9)

相关论文

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问