Tài Chính - Ngân HàngTin chuyên ngành

Nghiên cứu: Convfinqa: Exploring The Chain Of Numerical Reasoning In Conversational Finance Question Answering

Current blog Post: Tóm tắt Nghiên cứu: ConvFinQA: Khám phá Chuỗi Suy luận Số trong Trả lời Câu hỏi Tài chính Hội thoại

Giới thiệu

Trong bối cảnh các mô hình ngôn ngữ tiền huấn luyện quy mô lớn (Large Language Models – LLMs) đang phát triển mạnh mẽ, nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) ngày càng tập trung vào việc mô phỏng khả năng suy luận phức tạp của con người. Bài nghiên cứu “CONVFINQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering” của Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah và William Yang Wang, được công bố vào tháng 10 năm 2022, giới thiệu một bộ dữ liệu mới, CONVFINQA, nhằm mục đích khám phá chuỗi suy luận số trong trả lời câu hỏi hội thoại, đặc biệt trong lĩnh vực tài chính. đề tài luận văn tài chính, tài chính doanh nghiệp, quản trị tài chính Nghiên cứu này đánh giá khả năng của các mô hình học máy trong việc xử lý các cuộc hội thoại phức tạp, đòi hỏi suy luận số nhiều bước, dựa trên các báo cáo tài chính thực tế. Bài viết này sẽ đi sâu vào các khía cạnh chính của nghiên cứu, bao gồm bộ dữ liệu CONVFINQA, phương pháp xây dựng, các thí nghiệm được thực hiện và những phân tích sâu sắc về hiệu suất của các mô hình khác nhau.

Các Nghiên cứu Liên quan

Trả lời Câu hỏi Hội thoại (Conversational Question Answering – ConvQA)

ConvQA là một lĩnh vực đang phát triển, tập trung vào việc xây dựng các hệ thống có thể trả lời một chuỗi các câu hỏi liên quan đến nhau trong một cuộc hội thoại. Các bộ dữ liệu ConvQA trước đây như SQA (Iyyer et al., 2017), CSQA (Saha et al., 2018), CoQA (Reddy et al., 2019) và QuAC (Choi et al., 2018) tập trung vào các khía cạnh khác nhau của cuộc hội thoại, chẳng hạn như điều hướng bảng, suy luận trên biểu đồ tri thức, tham chiếu đồng văn và các câu hỏi mở. Tuy nhiên, CONVFINQA khác biệt ở chỗ nó tập trung đặc biệt vào suy luận số phức tạp trong lĩnh vực tài chính, một lĩnh vực đòi hỏi độ chính xác và hiểu biết sâu sắc về ngữ cảnh.

Suy luận Số (Numerical Reasoning)

Suy luận số là một khía cạnh quan trọng của trí tuệ nhân tạo, đặc biệt trong các ứng dụng như trả lời câu hỏi. Các bộ dữ liệu như DROP (Dua et al., 2019), MaWPS (Koncel-Kedziorski et al., 2016) và MathQA (Amini et al., 2019) đã được phát triển để đánh giá khả năng suy luận số của các mô hình học máy. Tuy nhiên, những bộ dữ liệu này thường tập trung vào các bài toán đơn giản hoặc các bài toán toán học tổng quát. CONVFINQA nâng cao độ phức tạp bằng cách đưa ra các tình huống suy luận số trong bối cảnh tài chính thực tế, đòi hỏi các mô hình phải hiểu các báo cáo tài chính và thực hiện các phép tính phức tạp.

Xử lý Ngôn ngữ Tự nhiên trong Tài chính (Financial NLP)

Lĩnh vực Financial NLP đã chứng kiến sự tăng trưởng đáng kể trong những năm gần đây, với các ứng dụng như phân tích tình cảm (Day and Lee, 2016; Akhtar et al., 2017), phát hiện gian lận (Han et al., 2018; Wang et al., 2019; Nourbakhsh and Bang, 2019) và trả lời câu hỏi dựa trên ý kiến (Liu et al., 2020). Các bộ dữ liệu như FiQA và FinQA (Chen et al., 2021) đã được tạo ra để thúc đẩy nghiên cứu trong lĩnh vực này. CONVFINQA tiếp tục phát triển lĩnh vực này bằng cách giới thiệu một bộ dữ liệu ConvQA tập trung vào suy luận số trên các báo cáo tài chính, mô phỏng các tương tác thực tế giữa các nhà phân tích tài chính và các báo cáo. Nghiên cứu này có ý nghĩa quan trọng trong việc quản trị tài chính, hiệu quả tài chính, nhân tố ảnh hưởngngân hàng thương mại, hoạt động ngân hàng, dịch vụ tài chính, mở ra hướng đi mới trong việc ứng dụng NLP vào lĩnh vực tài chính.

Bộ Dữ Liệu CONVFINQA

Xây dựng Bộ Dữ Liệu

Việc xây dựng bộ dữ liệu CONVFINQA bao gồm hai giai đoạn chính:

  1. Mô phỏng luồng QA hội thoại: Giai đoạn này tập trung vào việc tạo ra cấu trúc của các cuộc hội thoại, xác định các loại câu hỏi và mối quan hệ giữa chúng. Các tác giả đã tham khảo ý kiến của các chuyên gia tài chính để xác định các yếu tố chính ảnh hưởng đến luồng hội thoại khi truy vấn các báo cáo tài chính. Các yếu tố này bao gồm truy vấn trực tiếp nội dung bề mặt, yêu cầu tính toán số và kết hợp tuần tự các loại câu hỏi này để thu thập thêm thông tin hoặc chuyển sang các khía cạnh khác. Hai loại hội thoại đã được mô phỏng:
    • Hội thoại đơn giản (Type I): Dựa trên việc phân tách một câu hỏi nhiều bước từ bộ dữ liệu FinQA thành các bước suy luận đơn lẻ.
    • Hội thoại hỗn hợp (Type II): Dựa trên việc phân tách và tích hợp hai câu hỏi nhiều bước từ bộ dữ liệu FinQA.
  2. Soạn thảo câu hỏi: Trong giai đoạn này, các chuyên gia chú thích đã được thuê để chuyển các cấu trúc hội thoại thành các câu hỏi văn bản thực tế. Các chú thích viên được hướng dẫn đọc báo cáo tài chính, hiểu luồng suy luận của toàn bộ cấu trúc hội thoại và soạn thảo các câu hỏi dựa trên ngữ nghĩa suy luận đã cho. Các chú thích viên được khuyến khích bỏ qua các lượt không cần thiết và sử dụng tham chiếu đến ngữ cảnh trước đó để tạo ra các cuộc hội thoại tự nhiên và mạch lạc.

Phân Tích Bộ Dữ Liệu

Bộ dữ liệu CONVFINQA bao gồm 3.892 cuộc hội thoại, chứa 14.115 câu hỏi. Bộ dữ liệu được chia thành các tập huấn luyện, phát triển và kiểm tra. Phân tích bộ dữ liệu cho thấy độ dài phụ thuộc lớn giữa các câu hỏi trong một cuộc hội thoại, với hơn 60% câu hỏi yêu cầu tham khảo các câu hỏi trước đó. Hơn nữa, 65% câu hỏi trong các cuộc hội thoại hỗn hợp phụ thuộc vào các câu hỏi từ nửa đầu của cuộc hội thoại, cho thấy các chuỗi suy luận phức tạp liên quan đến nhiều khía cạnh của báo cáo tài chính.

Đánh Giá Chất Lượng Dữ Liệu

Để đánh giá chất lượng của CONVFINQA, các chuyên gia và người không chuyên đã được yêu cầu trả lời một tập hợp các câu hỏi mẫu. Các chuyên gia đạt được độ chính xác thực thi trung bình là 89,44% và độ chính xác chương trình là 86,34%, trong khi người không chuyên đạt được độ chính xác thấp hơn đáng kể. Điều này cho thấy cần có chuyên môn đáng kể để giải quyết các câu hỏi trong CONVFINQA.

Thí Nghiệm với Các Phương Pháp Ký Hiệu Thần Kinh (Neural Symbolic Approaches)

Phương Pháp và Kết Quả Chính

Các tác giả đã thử nghiệm với các phương pháp ký hiệu thần kinh truyền thống, bao gồm mô hình FinQANet (Chen et al., 2021) và hai mô hình tạo sinh (GPT-2 và T5). FinQANet là một phương pháp tiếp cận theo quy trình, sử dụng một trình truy xuất để truy xuất các dữ kiện hỗ trợ từ báo cáo tài chính và sau đó là một trình tạo sinh để tạo ra chương trình suy luận. Các mô hình đã được huấn luyện trên toàn bộ dữ liệu huấn luyện CONVFINQA.

Kết quả cho thấy FinQANet vượt trội hơn các mô hình tạo sinh độc lập, cho thấy lợi ích của việc sử dụng một kiến trúc được thiết kế đặc biệt để suy luận số. Tuy nhiên, hiệu suất của tất cả các mô hình vẫn còn thấp hơn đáng kể so với hiệu suất của chuyên gia, cho thấy độ khó của nhiệm vụ.

Phân Tích Chi Tiết Hiệu Suất

Phân tích chi tiết hiệu suất cho thấy rằng các lượt lựa chọn số (number selection turns) dễ trả lời nhất, trong khi các cuộc hội thoại hỗn hợp khó hơn các cuộc hội thoại đơn giản. Đặc biệt, nửa sau của các cuộc hội thoại hỗn hợp, nơi các câu hỏi có thể không liên quan hoặc phụ thuộc vào các câu hỏi từ nửa đầu, tỏ ra đặc biệt khó khăn cho các mô hình. Hơn nữa, các lượt sau trong một cuộc hội thoại có xu hướng khó trả lời hơn do các phụ thuộc suy luận dài hơn.

Phân Tích và Nhận Định

Phân tích thủ công các dự đoán từ mô hình FinQANet (RoBERTa-large) đã tiết lộ một số nhận định quan trọng:

  • Các mô hình vượt trội trong các câu hỏi lựa chọn số, đặc biệt là những câu hỏi liên quan đến các tham chiếu trước đó.
  • Các mô hình gặp khó khăn do thiếu kiến thức chuyên môn, dẫn đến các lỗi trong truy xuất dữ kiện, lựa chọn giá trị và tạo sinh toán học.
  • Các mô hình gặp khó khăn với các chuỗi suy luận dài, đặc biệt là trong các lượt câu hỏi sau trong một cuộc hội thoại.

Thí Nghiệm với Các Phương Pháp Dựa trên Nhắc (Prompting-Based Approaches)

Phương Pháp và Kết Quả Chính

Các tác giả cũng đã thử nghiệm với các phương pháp học ít mẫu (few-shot learning) dựa trên nhắc, sử dụng mô hình GPT-3 text-davinci-002. Do giới hạn độ dài của lời nhắc (prompt), trình truy xuất vẫn được sử dụng để truy xuất các dữ kiện hỗ trợ từ báo cáo tài chính. Các thí nghiệm đã được thực hiện với nhiều cài đặt khác nhau, bao gồm:

  • Chỉ trả lời (Answer-only): Tạo trực tiếp kết quả thực thi.
  • Chương trình gốc (Program-original): Tạo chương trình suy luận bằng DSL gốc.
  • Chương trình chuẩn (Program-normal): Tạo chương trình suy luận bằng DSL chuẩn.
  • Nhắc chuỗi suy nghĩ (Chain of Thought – CoT): Bao gồm một giải thích bằng ngôn ngữ tự nhiên về các bước suy luận trước khi đưa ra câu trả lời.

Kết quả cho thấy GPT-3 hoạt động kém hơn so với các phương pháp ký hiệu thần kinh được huấn luyện đầy đủ, ngay cả khi sử dụng các kết quả truy xuất vàng (gold retrieval results). Điều này cho thấy rằng các mô hình dựa trên nhắc gặp khó khăn trong việc nắm bắt các chuỗi suy luận phức tạp cần thiết để giải quyết các câu hỏi trong CONVFINQA.

Phân Tích Chi Tiết Hiệu Suất

Phân tích chi tiết hiệu suất của phương pháp hoạt động tốt nhất (Program-normal) cho thấy rằng GPT-3 thậm chí còn hoạt động kém hơn trong các lượt lựa chọn số. Các mô hình thường mắc lỗi khi các lượt lựa chọn số tham chiếu đến ngữ cảnh hội thoại trước đó. Hơn nữa, hiệu suất giảm khi độ dài chuỗi suy luận tăng lên.

Phân Tích và Nhận Định

Phân tích các dự đoán từ tất cả các phương pháp đã tiết lộ một số nhận định quan trọng:

  • GPT-3 có thể tự thực hiện các phép tính đơn giản, nhưng gặp khó khăn với các phép tính phức tạp.
  • GPT-3 hoạt động tốt hơn với định dạng chương trình quen thuộc hơn (Program-normal), do nó gặp phải định dạng này thường xuyên hơn trong quá trình huấn luyện trước.
  • GPT-3 gặp khó khăn với các mô hình nhiệm vụ phức tạp mới, thường chỉ bắt chước các bước suy luận được cung cấp trong các ví dụ mà bỏ qua ngữ cảnh thực tế.

Kết Luận

Nghiên cứu này giới thiệu CONVFINQA, một bộ dữ liệu mới để khám phá suy luận số trong trả lời câu hỏi tài chính hội thoại. Các thí nghiệm với các phương pháp ký hiệu thần kinh và các phương pháp dựa trên nhắc cho thấy cả hai phương pháp đều còn một khoảng cách đáng kể so với hiệu suất của chuyên gia, cho thấy độ khó của nhiệm vụ. Các mô hình ký hiệu thần kinh, với kiến trúc được thiết kế đặc biệt của chúng, có thể học các mẫu đồng xuất hiện với dữ liệu huấn luyện quy mô lớn. Tuy nhiên, các mô hình dựa trên nhắc gặp khó khăn trong việc nắm bắt các mô hình nhiệm vụ phức tạp mới và có xu hướng dựa vào kiến thức riêng của chúng hoặc bắt chước các ví dụ.

Hạn Chế và Cân Nhắc Đạo Đức

Nghiên cứu này có một số hạn chế. Cơ chế xây dựng cuộc hội thoại chỉ sử dụng hai cách, có thể không bao gồm tất cả các trường hợp có thể xảy ra trong các cuộc hội thoại thực tế. Các thử nghiệm chỉ sử dụng mô hình GPT-3, và các thử nghiệm mở rộng về kỹ thuật nhanh chóng phức tạp không được thực hiện do hạn chế về chi phí.

Các tác giả nhấn mạnh rằng các hệ thống được huấn luyện bằng bộ dữ liệu CONVFINQA được thiết kế để hỗ trợ việc ra quyết định của con người trong phân tích tài chính, chứ không phải thay thế các chuyên gia. Việc thu thập và chú thích dữ liệu tuân thủ các quy trình đạo đức, và các chú thích viên được trả lương công bằng cho công việc của họ.

Kết luận

Tóm lại, nghiên cứu này cung cấp những hiểu biết sâu sắc có giá trị về các thách thức và cơ hội trong việc xây dựng các hệ thống có thể suy luận số trong các cuộc hội thoại tài chính. Bộ dữ liệu CONVFINQA phục vụ như một nguồn tài nguyên có giá trị cho các nhà nghiên cứu quan tâm đến việc khám phá lĩnh vực quan trọng này. Nghiên cứu cũng gợi ý rằng việc kết hợp kiến thức chuyên môn vào các mô hình học máy là cần thiết để đạt được hiệu suất cấp chuyên gia trong các nhiệm vụ suy luận số phức tạp.

Download Nghiên cứu khoa học: Convfinqa: Exploring The Chain Of Numerical Reasoning In Conversational Finance Question Answering

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *