Tài Chính - Ngân HàngTin chuyên ngành

Nghiên cứu: PIXIU: A Large Language Model, Instruction Data And Evaluation Benchmark For Finance

PIXIU: Mô hình Ngôn Ngữ Lớn, Dữ Liệu Hướng Dẫn và Điểm Chuẩn Đánh Giá cho Tài Chính

Nghiên cứu “PIXIU: A Large Language Model, Instruction Data And Evaluation Benchmark For Finance” (Xie et al., 2023, chưa công bố chính thức) giới thiệu một khuôn khổ toàn diện bao gồm mô hình ngôn ngữ lớn (LLM) đầu tiên dành riêng cho lĩnh vực tài chính, có tên là FinMA. Bài báo này cũng giới thiệu bộ dữ liệu hướng dẫn (instruction data) lớn và bộ tiêu chuẩn (benchmark) để đánh giá hiệu suất của các LLM trong các tác vụ tài chính khác nhau. Nhóm nghiên cứu đã mở mã nguồn mô hình, dữ liệu và tiêu chuẩn đánh giá, nhằm thúc đẩy sự phát triển của trí tuệ nhân tạo (AI) trong lĩnh vực tài chính.

Các Mô Hình Ngôn Ngữ Tài Chính Hiện Tại

Nhiều mô hình ngôn ngữ tiền huấn luyện (PLM) cho lĩnh vực tài chính đã được đề xuất bằng cách liên tục huấn luyện trước PLM với các văn bản tài chính quy mô lớn. Araci (2019) đã đề xuất PLM tài chính đầu tiên có tên là finBERT, huấn luyện trước BERT (Kenton & Toutanova, 2019) với kho văn bản tài chính được phát hành mở như TRC2-financial và Financial Phrase Bank (Malo et al., 2014). finBERT vượt trội hơn các phương pháp mạng nơ-ron như LSTM trong các nhiệm vụ phân loại tình cảm tài chính. Yang et al. (2020) tiếp tục đề xuất FinBERT bằng cách huấn luyện trước BERT với một kho văn bản giao tiếp tài chính 4,9 tỷ mã thông báo, vượt trội hơn BERT trên ba bộ dữ liệu phân loại tình cảm tài chính. Shah et al. (2022) đã đề xuất FLANG, một PLM tài chính với BERT và ELECTRA (Clark et al., 2020) làm xương sống. Bên cạnh tiếng Anh, các PLM tài chính bằng các ngôn ngữ khác, chẳng hạn như tiếng Trung Quốc, cũng đã được đề xuất, chẳng hạn như Mengzi-fin (Zhang et al., 2021) và BBT-FinT5 (Lu et al., 2023). Gần đây nhất, Wu et al. (2023) đã đề xuất BloombergGPT, mô hình ngôn ngữ lớn tài chính đầu tiên với 50 tỷ tham số, được huấn luyện trước với các tập dữ liệu hỗn hợp từ miền chung và tài chính. Tuy nhiên, cả mô hình lẫn các tập dữ liệu miền được huấn luyện trước đều không được phát hành. Mô hình này cũng không tuân theo hướng dẫn như các LLM khác như ChatGPT và GPT-4.

Xây Dựng Bộ Dữ Liệu FIT

Để giải quyết các câu hỏi nghiên cứu, nhóm nghiên cứu đã xây dựng FIT (Financial Instruction Tuning dataset), một bộ dữ liệu hướng dẫn đa nhiệm vụ và đa phương thức, bao gồm cả dữ liệu dạng bảng trong báo cáo tài chính và dữ liệu chuỗi thời gian về giá cổ phiếu lịch sử. Nhóm nghiên cứu thu thập dữ liệu huấn luyện từ các nhiệm vụ khác nhau, bao gồm phân tích tình cảm tài chính, phân loại tiêu đề tin tức, nhận dạng thực thể có tên, trả lời câu hỏi và dự đoán biến động cổ phiếu. Sau đó, các chuyên gia trong lĩnh vực tài chính viết các hướng dẫn cụ thể cho từng nhiệm vụ. Bằng cách kết hợp các hướng dẫn này với dữ liệu từ mỗi nhiệm vụ, nhóm nghiên cứu đã tạo ra một bộ dữ liệu FIT quy mô lớn.

FinMA: Mô Hình Ngôn Ngữ Lớn Dành Riêng Cho Tài Chính

Từ bộ dữ liệu FIT, nhóm nghiên cứu đã đề xuất mô hình FinMA, bằng cách thực hiện điều chỉnh hướng dẫn đa nhiệm vụ trên LLaMA với bộ dữ liệu đã xây dựng. Để đánh giá mô hình của mình và các LLM khác một cách toàn diện, nhóm nghiên cứu đã xây dựng Điểm chuẩn Đánh giá Dự đoán và Hiểu Ngôn ngữ Tài chính (FLARE), bao gồm 4 nhiệm vụ NLP tài chính với 6 bộ dữ liệu và 1 nhiệm vụ dự đoán tài chính với 3 bộ dữ liệu.

Kết quả và Đánh Giá

Dựa trên FLARE, nhóm nghiên cứu đã đánh giá hiệu suất của mô hình của họ, BloombergGPT và các LLM tiên tiến trong miền chung, chẳng hạn như ChatGPT và GPT-4 (OpenAI, 2023). Kết quả thử nghiệm cho thấy: 1) FinMA vượt trội hơn đáng kể so với LLM, bao gồm BloombergGPT, ChatGPT và GPT-4 trên hầu hết các nhiệm vụ trong FLARE, bao gồm phân tích tình cảm tài chính, phân loại tiêu đề tin tức, NER và dự đoán biến động cổ phiếu. Điều này chứng minh tầm quan trọng của việc điều chỉnh LLM đặc biệt cho miền tài chính. 2) Mặc dù có kết quả đầy hứa hẹn trên hầu hết các nhiệm vụ, FinMA hoạt động kém hơn BloombergGPT, ChatGPT và GPT-4 trong việc trả lời câu hỏi, đánh giá khả năng suy luận định lượng của LLM. Phân tích của chúng tôi cho thấy điều này là do hạn chế của LLaMA về suy luận định lượng và toán học. 3) So với các nhiệm vụ NLP, tất cả các LLM, bao gồm FinMA, ChatGPT và GPT-4, vẫn thể hiện hiệu suất hạn chế trong dự đoán biến động cổ phiếu, cho thấy cần phải cải thiện hơn nữa. 4) FinMA được tinh chỉnh với cả NLP và các nhiệm vụ dự đoán tài chính, thể hiện hiệu suất tốt nhất trên một trong các tập dữ liệu dự đoán cổ phiếu, cho thấy tiềm năng điều chỉnh hướng dẫn cụ thể theo nhiệm vụ của LLM trên các nhiệm vụ dự đoán tài chính.

Kết luận

Nghiên cứu này đã giới thiệu PIXIU, một khuôn khổ toàn diện bao gồm mô hình ngôn ngữ lớn FinMA, bộ dữ liệu hướng dẫn FIT và bộ tiêu chuẩn đánh giá FLARE. Thông qua đánh giá sâu rộng, nhóm nghiên cứu đã chứng minh tính hiệu quả của FinMA trong nhiều tác vụ tài chính khác nhau, cho thấy tiềm năng của việc điều chỉnh hướng dẫn cụ thể theo miền của các mô hình ngôn ngữ lớn trong lĩnh vực tài chính. Tuy nhiên, những thách thức như cải thiện hiệu suất trên các tác vụ phức tạp và giải quyết các ràng buộc về tài nguyên vẫn còn. Đóng góp mã nguồn mở của chúng tôi nhằm mục đích tạo điều kiện cho nghiên cứu và đổi mới hơn nữa trong sự hiểu biết, dự đoán ngôn ngữ tài chính và LLM, hướng tới các LLM hữu ích và an toàn hơn trong lĩnh vực tài chính.

Nghiên cứu này đóng góp đáng kể vào lĩnh vực AI tài chính bằng cách cung cấp các nguồn tài nguyên mở và một tiêu chuẩn đánh giá toàn diện. Kết quả cho thấy rằng các LLM được điều chỉnh riêng cho lĩnh vực tài chính có thể vượt trội hơn các mô hình chung trong nhiều tác vụ. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, chẳng hạn như cải thiện khả năng suy luận định lượng và dự đoán biến động cổ phiếu. PIXIU là một bước tiến quan trọng trong việc phát triển các LLM mạnh mẽ và đáng tin cậy cho lĩnh vực tài chính.

Download Nghiên cứu khoa học: PIXIU: A Large Language Model, Instruction Data And Evaluation Benchmark For Finance

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *