Tài Chính - Ngân HàngTin chuyên ngành

Nghiên cứu: TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance

Dữ liệu hỗn hợp trong tài chính và sự cần thiết của TAT-QA

Các hệ thống QA hiện tại chủ yếu tập trung vào dữ liệu phi cấu trúc (văn bản), cơ sở tri thức (KB) cấu trúc hoặc bảng bán cấu trúc. Tuy nhiên, dữ liệu hỗn hợp kết hợp cả văn bản phi cấu trúc và KB/bảng cấu trúc hoặc bán cấu trúc lại ít được quan tâm hơn. Trong thực tế, dữ liệu hỗn hợp, chẳng hạn như báo cáo tài chính, rất phổ biến. Các báo cáo này thường chứa các bảng số liệu đi kèm với các đoạn văn bản mô tả, phân tích hoặc bổ sung cho nội dung của bảng. Để hiểu và trả lời câu hỏi từ dữ liệu hỗn hợp như vậy, cần có sự liên kết chặt chẽ giữa bảng và các đoạn văn bản, cũng như khả năng suy luận số học. TAT-QA ra đời để giải quyết vấn đề này, cung cấp một bộ dữ liệu lớn với các ngữ cảnh hỗn hợp được trích xuất từ các báo cáo tài chính thực tế.

Xây dựng và phân tích bộ dữ liệu TAT-QA

Quá trình xây dựng TAT-QA bao gồm việc thu thập và tiền xử lý dữ liệu, chú thích dữ liệu và kiểm soát chất lượng. Đầu tiên, khoảng 500 báo cáo tài chính được tải xuống, sau đó sử dụng mô hình phát hiện bảng để trích xuất các bảng. Chỉ những bảng có số lượng hàng và cột phù hợp mới được giữ lại. Tiếp theo, các chuyên gia tài chính sẽ thêm các đoạn văn bản liên quan đến các bảng này, đảm bảo rằng các đoạn văn bản mô tả, phân tích hoặc bổ sung cho nội dung của bảng. Sau đó, họ tạo ra các cặp câu hỏi-trả lời, trong đó các câu hỏi cần hữu ích trong các phân tích tài chính thực tế và có thể được trả lời bằng cách suy luận số học. Cuối cùng, các câu trả lời được chú thích về loại và nguồn gốc để tạo điều kiện cho việc phát triển các mô hình QA có khả năng giải thích. Quá trình kiểm soát chất lượng được thực hiện nghiêm ngặt với sự tham gia của các chuyên gia tài chính để đảm bảo tính chính xác và nhất quán của dữ liệu.

Mô hình TAGOP: Suy luận trên dữ liệu hỗn hợp

Mô hình TAGOP được đề xuất trong bài viết này là một mô hình QA mới được thiết kế để suy luận trên cả bảng và văn bản. TAGOP sử dụng phương pháp gắn thẻ chuỗi (sequence tagging) để trích xuất các ô liên quan từ bảng và các đoạn văn bản liên quan từ văn bản. Sau đó, nó áp dụng suy luận biểu tượng (symbolic reasoning) trên các thông tin đã trích xuất bằng cách sử dụng một tập hợp các toán tử tổng hợp (aggregation operator) để đưa ra câu trả lời cuối cùng. Một khía cạnh quan trọng của TAGOP là khả năng dự đoán độ lớn của một số (scale prediction), chẳng hạn như nghìn, triệu, tỷ, thường bị bỏ qua hoặc chỉ được hiển thị trong tiêu đề hoặc các đoạn văn bản liên quan của bảng. TAGOP bao gồm một bộ phân loại đa lớp để dự đoán độ lớn của số.

Kết quả thực nghiệm và phân tích

Để đánh giá hiệu quả của TAGOP, tác giả đã so sánh nó với một số mô hình QA khác, bao gồm các mô hình QA dựa trên văn bản, mô hình QA dựa trên bảng và mô hình QA hỗn hợp. Kết quả thực nghiệm cho thấy TAGOP vượt trội hơn tất cả các mô hình cơ sở về cả độ chính xác tuyệt đối (Exact Match – EM) và điểm F1. Điều này chứng tỏ hiệu quả của phương pháp TAGOP trong việc suy luận trên cả dữ liệu dạng bảng và dữ liệu dạng văn bản, cũng như khả năng suy luận số học. Tuy nhiên, kết quả vẫn còn kém xa so với hiệu suất của con người, cho thấy TAT-QA là một bộ dữ liệu đầy thách thức và cần nhiều nỗ lực hơn nữa để phát triển các mô hình QA có khả năng xử lý dữ liệu hỗn hợp. Phân tích sâu hơn về các loại câu trả lời và nguồn gốc câu trả lời cho thấy TAGOP hoạt động tốt hơn trên các câu hỏi dựa trên bảng so với các câu hỏi dựa trên văn bản và gặp khó khăn hơn với các câu hỏi số học.

Kết luận

Bài viết này giới thiệu TAT-QA, một bộ dữ liệu QA mới và đầy thách thức, bao gồm các ngữ cảnh hỗn hợp thực tế từ lĩnh vực tài chính. TAT-QA đòi hỏi khả năng suy luận số học và sự liên kết chặt chẽ giữa bảng và các đoạn văn bản. Bài viết cũng đề xuất mô hình TAGOP, có khả năng tổng hợp thông tin từ ngữ cảnh hỗn hợp và thực hiện suy luận số học để đưa ra câu trả lời. Kết quả thực nghiệm cho thấy TAT-QA là một bộ dữ liệu đầy thách thức và cần nhiều nỗ lực hơn nữa để phát triển các mô hình QA có khả năng xử lý dữ liệu hỗn hợp. TAT-QA và TAGOP có thể được sử dụng làm chuẩn để phát triển các mô hình QA tiên tiến hơn, thúc đẩy sự phát triển của các công nghệ QA để giải quyết các dữ liệu hỗn hợp phức tạp và thực tế hơn.

Download Nghiên cứu khoa học: TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *