Nghiên cứu: Large Language Models In Finance: A Survey
Current blog Post: Phân tích tổng quan về mô hình ngôn ngữ lớn trong tài chính: Một khảo sát
Nghiên cứu về các Mô Hình Ngôn Ngữ Lớn (Large Language Models – LLMs) đã phát triển nhanh chóng trong cả giới học thuật và ngành công nghiệp. Điều này thu hút được sự chú ý đáng kể đến các ứng dụng LLM như ChatGPT. Được truyền cảm hứng từ Mô Hình Ngôn Ngữ Tiền Huấn Luyện (Pre-trained Language Models – PLMs) LLMs được hỗ trợ bởi khả năng học chuyển giao và được xây dựng dựa trên kiến trúc Transformer, sử dụng một lượng lớn dữ liệu văn bản. Bài viết này tập trung vào việc khảo sát các LLMs trong lĩnh vực tài chính (FinLLMs), một lĩnh vực còn khá mới mẻ nhưng đầy tiềm năng. Nghiên cứu này của Jean Lee, Nicholas Stevens, Soyeon Caren Han và Minseok Song, được công bố vào ngày 4 tháng 2 năm 2024, cung cấp một cái nhìn tổng quan toàn diện về FinLLMs, bao gồm lịch sử, kỹ thuật, hiệu suất, cơ hội và thách thức.
Xu hướng phát triển từ mô hình ngôn ngữ tổng quát đến mô hình ngôn ngữ tài chính
Mô hình ngôn ngữ tổng quát
Kể từ khi Google giới thiệu kiến trúc Transformer vào năm 2017, các Mô Hình Ngôn Ngữ (LMs) thường được huấn luyện trước với các mục tiêu phân biệt hoặc tạo sinh. Huấn luyện trước phân biệt sử dụng mô hình ngôn ngữ được che để dự đoán câu tiếp theo và có kiến trúc chỉ bộ mã hóa hoặc kiến trúc bộ mã hóa-giải mã. Huấn luyện trước tạo sinh sử dụng mô hình ngôn ngữ tự hồi quy để dự đoán mã thông báo tiếp theo và có kiến trúc chỉ bộ giải mã. Hình 1 minh họa dòng thời gian tiến hóa từ LMs miền chung đến LMs miền tài chính.
GPT-Series
Loạt mô hình Generative Pre-trained Transformer (GPT) bắt đầu với GPT-1 (110M). Kể từ đó, nhóm OpenAI tập trung vào việc mở rộng quy mô mô hình và GPT-2 (1,5B) đã được phát hành vào năm 2019. GPT-2 xác định sức mạnh của việc mở rộng quy mô và cách tiếp cận xác suất để giải quyết vấn đề đa nhiệm. Năm 2020, GPT-3 với 175B tham số đã được phát hành. Đây là một cột mốc quan trọng đối với LLMs, vì nó giới thiệu một khả năng mới nổi của LLMs; học tập trong ngữ cảnh. Học tập trong ngữ cảnh đề cập đến việc mô hình có được các khả năng không được đào tạo rõ ràng, cho phép các mô hình ngôn ngữ hiểu ngôn ngữ của con người và tạo ra các kết quả vượt xa mục tiêu đào tạo trước ban đầu của chúng.
Những nỗ lực liên tục để cải thiện LLMs đã dẫn đến việc giới thiệu ChatGPT, vào tháng 11 năm 2022. Ứng dụng này kết hợp GPT-3 (Học tập trong ngữ cảnh), Codex (LLMs cho mã) và InstructGPT (Học tăng cường với phản hồi của con người, RLHF). Sự thành công của ChatGPT đã dẫn đến sự phát triển hơn nữa của các mô hình lớn hơn đáng kể, bao gồm GPT-4 (ước tính 1,7T tham số). GPT-4 thể hiện hiệu suất ở cấp độ con người, có khả năng vượt qua các kỳ thi luật và y tế, đồng thời xử lý dữ liệu đa phương tiện.
OpenAI tiếp tục xây dựng các mô hình ngôn ngữ cực lớn, nhằm mục đích nâng cao khả năng của mô hình trong việc xử lý dữ liệu đa phương tiện, cũng như cung cấp API để phát triển các ứng dụng trong thế giới thực. Bất chấp sự phổ biến và chấp nhận rộng rãi, các ứng dụng trong thế giới thực trong lĩnh vực tài chính sử dụng API của họ vẫn chưa được khám phá đầy đủ.
LLMs mã nguồn mở
Trước kỷ nguyên của LLMs, cộng đồng nghiên cứu thường phát hành PLMs mã nguồn mở như Bi Directional Encoder Representations from Transformers (BERT, cơ sở 110M tham số). BERT là mô hình nền tảng cho nhiều PLMs ban đầu, bao gồm FinBERT. Kể từ khi OpenAI chuyển từ mã nguồn mở sang LLMs mã nguồn đóng, xu hướng trong nghiên cứu LLM là giảm việc phát hành các mô hình mã nguồn mở. Tuy nhiên, vào tháng 2 năm 2023, Meta AI đã phát hành LLM mã nguồn mở, LLaMA (7B, 13B, 33B, 65B tham số) và điều này đã khuyến khích sự phát triển của các LLMs đa dạng bằng LLaMA. Tương tự như các biến thể BERT, các biến thể LLaMA nhanh chóng lan rộng bằng cách áp dụng các kỹ thuật khác nhau như Instruction Fine-Tuning (IFT) và Chain-of-Thought (CoT) Prompting.
Cũng đã có những nỗ lực đáng kể của cộng đồng nghiên cứu để tạo ra LLMs mã nguồn mở nhằm giảm sự phụ thuộc vào nghiên cứu của công ty và các mô hình độc quyền.
BLOOM (176B) được xây dựng bởi sự hợp tác của hàng trăm nhà nghiên cứu từ BigScience Workshop. LLM mã nguồn mở này được đào tạo trên 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình.
Mô hình ngôn ngữ tài chính
Các LMs dành riêng cho miền, chẳng hạn như LMs miền tài chính, thường được xây dựng bằng LMs miền chung. Trong tài chính, chủ yếu có bốn PLMs tài chính (FinPLMs) và bốn LLMs tài chính (FinLLMs). Trong bốn FinPLMs, FinBERT-19, FinBERT-20 và FinBERT-21 đều dựa trên BERT, trong khi FLANG dựa trên ELECTRA. Trong bốn FinLLMs, FinMA, InvestLM và FinGPT dựa trên LLaMA hoặc các mô hình dựa trên mã nguồn mở khác, trong khi BloombergGPT là một mô hình mã nguồn đóng kiểu BLOOM.
Kỹ thuật: Từ FinPLMs đến FinLLMs
Bài khảo sát tập trung vào FinLLMs, nhưng điều quan trọng là phải thừa nhận các nghiên cứu trước đây về FinPLMs vì chúng đã hình thành nền tảng cho sự phát triển của FinLLM. Nghiên cứu này xem xét ba kỹ thuật được sử dụng bởi bốn FinPLMs và hai kỹ thuật được sử dụng bởi bốn FinLLMs. Hình 2 minh họa các so sánh kỹ thuật về việc xây dựng các LM tài chính và Bảng 1 cho thấy tóm tắt về FinPLMs/FinLLMs bao gồm các kỹ thuật đào tạo trước, tinh chỉnh và đánh giá.
Huấn luyện trước liên tục
Huấn luyện trước liên tục của LMs nhằm mục đích đào tạo một LM chung hiện có với dữ liệu dành riêng cho miền mới trên một chuỗi các tác vụ tăng dần.
FinBERT-19 là mô hình FinBERT đầu tiên được phát hành để phân tích tình cảm tài chính và thực hiện ba bước: 1) khởi tạo PLM BERT miền chung (3,3B mã thông báo), 2) huấn luyện trước liên tục trên một kho văn bản miền tài chính và 3) tinh chỉnh trên các tác vụ NLP dành riêng cho miền tài chính. LM tài chính được tinh chỉnh được phát hành trên HuggingFace và FinBERT-19 này là một mô hình phụ thuộc vào tác vụ cho tác vụ phân tích tình cảm tài chính.
Huấn luyện trước dành riêng cho miền từ đầu
Cách tiếp cận huấn luyện trước dành riêng cho miền bao gồm việc đào tạo một mô hình độc quyền trên một kho văn bản dành riêng cho miền không được gắn nhãn trong khi tuân theo kiến trúc ban đầu và mục tiêu đào tạo của nó.
FinBERT-20 là một mô hình BERT dành riêng cho miền tài chính, được huấn luyện trước trên một kho văn bản truyền thông tài chính (4,9B mã thông báo). Tác giả không chỉ phát hành mô hình FinBERT mà còn cả FinVocab không phân biệt chữ hoa/thường, có kích thước mã thông báo tương tự như mô hình BERT ban đầu. FinBERT-20 cũng đã tiến hành một tác vụ phân tích tình cảm cho các thử nghiệm tinh chỉnh trên cùng một tập dữ liệu của FinBERT-19.
Huấn luyện trước miền hỗn hợp
Cách tiếp cận huấn luyện trước miền hỗn hợp bao gồm việc đào tạo một mô hình bằng cả kho văn bản miền chung và kho văn bản dành riêng cho miền. Giả định là văn bản miền chung vẫn có liên quan, trong khi dữ liệu miền tài chính cung cấp kiến thức và khả năng thích ứng trong quá trình huấn luyện trước.
FinBERT-21 là một PLM dựa trên BERT khác được thiết kế để khai thác văn bản tài chính, được đào tạo đồng thời trên một kho văn bản chung và một kho văn bản miền tài chính. FinBERT-21 sử dụng học tập đa nhiệm trên sáu tác vụ huấn luyện trước tự giám sát, cho phép nó thu thập hiệu quả kiến thức ngôn ngữ và thông tin ngữ nghĩa. FinBERT-21 đã tiến hành các thử nghiệm về Phân tích tình cảm cũng như cung cấp kết quả thử nghiệm cho hai tác vụ bổ sung; Phát hiện ranh giới câu và Trả lời câu hỏi.
FLANG là một mô hình dành riêng cho miền sử dụng các từ khóa và cụm từ tài chính để che và tuân theo chiến lược đào tạo của ELECTRA. Nghiên cứu này lần đầu tiên giới thiệu Financial Language Understanding Evaluation (FLUE), một tập hợp năm tác vụ chuẩn NLP tài chính. Các tác vụ bao gồm Phân tích tình cảm, Phân loại văn bản tiêu đề, Nhận dạng thực thể được đặt tên, Phát hiện ranh giới cấu trúc và Trả lời câu hỏi.
LLM miền hỗn hợp với kỹ thuật Prompt
LLMs miền hỗn hợp được đào tạo trên cả một kho văn bản chung lớn và một kho văn bản lớn dành riêng cho miền. Sau đó, người dùng mô tả tác vụ và tùy chọn cung cấp một tập hợp các ví dụ bằng ngôn ngữ của con người. Kỹ thuật này được gọi là Kỹ thuật Prompt và sử dụng cùng một LLM bị đóng băng cho một số tác vụ hạ nguồn mà không cần cập nhật trọng số. Khảo sát này không khám phá kỹ thuật prompt mà thay vào đó tham khảo các khảo sát gần đây.
BloombergGPT là FinLLM đầu tiên sử dụng mô hình BLOOM. Nó được đào tạo trên một kho văn bản chung lớn (345B mã thông báo) và một kho văn bản tài chính lớn (363B mã thông báo). Kho văn bản tài chính, FinPile, chứa dữ liệu được thu thập từ web, tin tức, hồ sơ, báo chí và dữ liệu độc quyền của Bloomberg. Các tác giả đã tiến hành các tác vụ NLP tài chính (5 tác vụ chuẩn và 12 tác vụ nội bộ) cũng như 42 tác vụ NLP mục đích chung.
LLM được tinh chỉnh hướng dẫn với kỹ thuật Prompt
Điều chỉnh hướng dẫn là việc đào tạo bổ sung LLMs bằng cách sử dụng các hướng dẫn văn bản rõ ràng để nâng cao khả năng và khả năng kiểm soát của LLMs. Nghiên cứu về điều chỉnh hướng dẫn có thể được phân loại thành hai lĩnh vực chính: 1) xây dựng tập dữ liệu hướng dẫn và 2) tạo LLMs được tinh chỉnh bằng cách sử dụng các tập dữ liệu hướng dẫn này. Trong tài chính, các nhà nghiên cứu đã bắt đầu chuyển đổi các tập dữ liệu tài chính hiện có thành tập dữ liệu hướng dẫn và sau đó sử dụng các tập dữ liệu này để tinh chỉnh LLMs.
FinMA (hoặc PIXIU) bao gồm hai mô hình LLaMA được tinh chỉnh (7B và 30B) sử dụng tập dữ liệu hướng dẫn tài chính cho các tác vụ tài chính. Nó được xây dựng từ một tập dữ liệu hướng dẫn đa nhiệm quy mô lớn có tên là Financial Instruction Tuning (FIT, 136k mẫu) bằng cách thu thập chín tập dữ liệu tài chính được phát hành công khai được sử dụng trong năm tác vụ khác nhau. Ngoài năm tác vụ chuẩn FLUE, nó còn bao gồm tác vụ Dự đoán chuyển động chứng khoán.
InvestLM là một mô hình LLaMA-65B được tinh chỉnh bằng cách sử dụng tập dữ liệu hướng dẫn miền tài chính được tuyển chọn thủ công. Tập dữ liệu bao gồm các câu hỏi kiểm tra Chartered Financial Analyst (CFA), hồ sơ SEC, thảo luận về tài chính định lượng Stackexchange và các tác vụ NLP tài chính. Các tác vụ hạ nguồn tương tự như FinMA nhưng cũng bao gồm một tác vụ Tóm tắt văn bản tài chính.
FinGPT là một khuôn khổ mã nguồn mở và lấy dữ liệu làm trung tâm, cung cấp một bộ API cho các nguồn dữ liệu tài chính, một tập dữ liệu hướng dẫn cho các tác vụ tài chính và một số LLMs tài chính được tinh chỉnh. Nhóm FinGPT đã phát hành một số bài báo tương tự mô tả khuôn khổ và một bài báo thử nghiệm về FinLLMs được tinh chỉnh hướng dẫn bằng cách sử dụng sáu LLMs mã nguồn mở với phương pháp Low-Rank Adaptation (LoRA).
Đánh giá: Các tác vụ và bộ dữ liệu chuẩn
Khi LLMs ngày càng được chú ý nhiều hơn, việc đánh giá chúng ngày càng trở nên quan trọng. Nghiên cứu này tóm tắt sáu tác vụ và bộ dữ liệu chuẩn NLP tài chính, đồng thời xem xét kết quả đánh giá của các mô hình bao gồm FinPLMs, FinLLMs, ChatGPT, GPT-4 và các mô hình State-of-the-Art (SOTA) dành riêng cho tác vụ. Các kết quả được tham khảo từ nghiên cứu ban đầu hoặc nghiên cứu phân tích và kết quả SOTA từ các mô hình dành riêng cho tác vụ.
Phân tích tình cảm (SA)
Tác vụ Phân tích tình cảm (SA) nhằm mục đích phân tích thông tin tình cảm từ văn bản đầu vào, bao gồm tin tức tài chính và các bài đăng trên tiểu blog. Hầu hết FinPLMs và FinLLMs báo cáo kết quả đánh giá của tác vụ này bằng cách sử dụng Financial PhraseBank (FPB) và tập dữ liệu FiQA SA. Tập dữ liệu FPB bao gồm 4.845 bài báo tin tức tài chính tiếng Anh. Các chuyên gia trong lĩnh vực này đã chú thích mỗi câu bằng một trong ba nhãn tình cảm: Tích cực, Tiêu cực hoặc Trung lập. Tập dữ liệu FiQA-SA bao gồm 1.173 bài đăng từ cả tiêu đề và tiểu blog. Điểm tình cảm nằm trên thang đo [-1, 1] và các nghiên cứu gần đây đã chuyển đổi điểm này thành một tác vụ phân loại. Nhìn chung, FLANG-ELECTRA đạt kết quả tốt nhất (92% trên F1) trong khi FinMA-30B và GPT-4 đạt kết quả tương tự (87% trên F1) với lời nhắc 5 lần. Nó gợi ý một cách tiếp cận thực tế cho các tác vụ ít phức tạp hơn về hiệu quả và chi phí.
Để đánh giá thêm về SA, nghiên cứu này bao gồm hai tập dữ liệu được phát hành mở: SemEval-2017 (Tác vụ 5) và StockEmotions. Tập dữ liệu SemEval-2017 bao gồm 4.157 câu được thu thập từ cả tiêu đề và tiểu blog. Tương tự như FiQA SA, điểm tình cảm nằm trên thang đo [-1, 1]. Tập dữ liệu StockEmotions bao gồm 10.000 câu được thu thập tiểu blog chú thích tình cảm nhị phân và 12 lớp cảm xúc chi tiết bao gồm phạm vi đa chiều của cảm xúc nhà đầu tư.
Phân loại văn bản (TC)
Phân loại văn bản (TC) là tác vụ phân loại một văn bản hoặc tài liệu nhất định thành các nhãn được xác định trước dựa trên nội dung của nó. Trong văn bản tài chính, thường có nhiều chiều thông tin ngoài tình cảm như hướng giá hoặc hướng lãi suất. FLUE bao gồm tập dữ liệu tiêu đề tin tức vàng cho phân loại văn bản. Tập dữ liệu này bao gồm 11.412 tiêu đề tin tức, được gắn nhãn bằng phân loại nhị phân trên chín nhãn như “giá tăng” hoặc “giá giảm”. Tương tự như tác vụ SA, FLANG-ELECTRA và FinMA-30B với lời nhắc 5 lần đã đạt được kết quả tốt nhất (98% trên Trung bình F1) và hiệu suất của BERT và FinBERT-20 cũng đáng chú ý (97% trên Trung bình F1).
Vì TC là một tác vụ rộng tùy thuộc vào tập dữ liệu và các nhãn được xác định trước của nó, nghiên cứu này bao gồm ba tập dữ liệu TC tài chính được phát hành mở để nghiên cứu thêm: FedNLP, FOMC và Banking77. Tập dữ liệu FedNLP bao gồm các tài liệu có nguồn gốc từ nhiều tài liệu của Ủy ban thị trường mở liên bang (FOMC). Tập dữ liệu được chú thích bằng các nhãn là Tăng, Duy trì hoặc Giảm dựa trên quyết định về Lãi suất quỹ liên bang của Cục Dự trữ Liên bang cho giai đoạn tiếp theo. Tương tự, tập dữ liệu FOMC là một tập hợp các tài liệu FOMC với các nhãn là Dovish, Hawkish hoặc Neutral, phản ánh tình cảm thịnh hành được truyền đạt trong các tài liệu FOMC. Tập dữ liệu Banking77 bao gồm 13.083 mẫu bao gồm 77 ý định liên quan đến các truy vấn dịch vụ khách hàng ngân hàng, chẳng hạn như “mất thẻ” hoặc “liên kết với thẻ hiện có”. Tập dữ liệu này được thiết kế để phát hiện ý định và phát triển các hệ thống hội thoại.
Nhận dạng thực thể được đặt tên (NER)
Tác vụ Nhận dạng thực thể được đặt tên (NER) là trích xuất thông tin từ văn bản phi cấu trúc và phân loại nó thành các thực thể được đặt tên được xác định trước như địa điểm (LOC), tổ chức (ORG) và người (PER). Đối với tác vụ NER tài chính, tập dữ liệu FIN được bao gồm trong các chuẩn FLUE. Tập dữ liệu FIN bao gồm tám thỏa thuận cho vay tài chính có nguồn gốc từ Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) để đánh giá rủi ro tín dụng. GPT-4 với lời nhắc 5 lần (83% trên Thực thể F1) và FLANG-ELECTRA thể hiện hiệu suất đáng chú ý (82% trên Thực thể F1), trong khi các FinLLM khác thể hiện kết quả không tối ưu (61%-69% trên Thực thể F1).
Để nghiên cứu thêm, nghiên cứu này bao gồm một tập dữ liệu NER tài chính, FiNER-139, bao gồm 1,1M câu được chú thích bằng 139 thẻ eXtensible Business Reporting Language (XBRL) cấp độ từ, có nguồn gốc từ SEC. Tập dữ liệu này được thiết kế cho các tác vụ Trích xuất thực thể và Suy luận số, dự đoán các thẻ XBRL (ví dụ: tiền mặt và các khoản tương đương tiền mặt) dựa trên dữ liệu đầu vào số trong các câu (ví dụ: “24,8” triệu).
Trả lời câu hỏi (QA)
Trả lời câu hỏi (QA) là một tác vụ để truy xuất hoặc tạo câu trả lời cho các câu hỏi từ một bộ sưu tập tài liệu phi cấu trúc. QA tài chính khó hơn QA chung vì nó yêu cầu suy luận số trên nhiều định dạng. FiQA-QA là dành cho QA dựa trên ý kiến, đại diện cho một tập dữ liệu QA tài chính ban đầu.
Theo thời gian, QA tài chính đã phát triển để bao gồm suy luận số phức tạp trong các cuộc trò chuyện nhiều lượt. Sự phát triển này liên quan đến việc giới thiệu QA lai, đó là tạo ra các đường dẫn để kết nối các ngữ cảnh lai bao gồm cả nội dung dạng bảng và dạng văn bản. FinQA là một tập dữ liệu QA lai một lượt có 8.281 cặp QA và được chú thích bởi các chuyên gia từ các báo cáo thường niên của các công ty S&P 500. ConvFinQA, một phần mở rộng của FinQA, là một tập dữ liệu QA lai hội thoại nhiều lượt, bao gồm 3.892 cuộc trò chuyện với 14.115 câu hỏi. Thay vì sử dụng tập dữ liệu FiQA-QA, tất cả FinLLMs đã tiến hành các thử nghiệm trên tập dữ liệu FinQA và/hoặc ConvFinQA để đánh giá khả năng suy luận số của chúng. GPT-4 với lời nhắc không lần nào vượt trội hơn tất cả các mô hình khác (69%-76% trên Độ chính xác EM), tiếp cận hiệu suất của các chuyên gia là con người (Trung bình 90% trên Độ chính xác EM). Kết quả của BloombergGPT (43% trên Độ chính xác EM) hơi thấp hơn đám đông chung (47% trên Độ chính xác EM).
Dự đoán chuyển động chứng khoán (SMP)
Tác vụ Dự đoán chuyển động chứng khoán (SMP) nhằm mục đích dự đoán chuyển động giá của ngày hôm sau (ví dụ: tăng hoặc giảm) dựa trên giá lịch sử và dữ liệu văn bản liên quan. Vì nó yêu cầu tích hợp các bài toán chuỗi thời gian với các phụ thuộc thời gian từ thông tin văn bản, nên nó trình bày một nhiệm vụ phức tạp, trong đó dữ liệu văn bản có thể hoạt động như cả nhiễu và tín hiệu. FinMA bao gồm các tác vụ SMP lần đầu tiên, tiến hành các thử nghiệm trên ba tập dữ liệu; StockNet, CIKM18 và BigData22.
StockNet đã thu thập dữ liệu giá lịch sử và dữ liệu Twitter trong khoảng thời gian từ 2014 đến 2016 cho 88 cổ phiếu được niêm yết trong S&P và được sử dụng rộng rãi cho các tác vụ SMP. Nhiệm vụ này được đóng khung như một phân loại nhị phân với một ngưỡng: một chuyển động giá cao hơn 0,55% được gắn nhãn là tăng (ký hiệu là 1), trong khi một chuyển động nhỏ hơn -0,5% được gắn nhãn là giảm (ký hiệu là 0). Tương tự, CIKM18 sử dụng giá lịch sử và dữ liệu Twitter năm 2017 cho 47 cổ phiếu trong S&P 500. BigData22 đã biên soạn dữ liệu trong khoảng thời gian từ 2019 đến 2020 cho 50 cổ phiếu trên thị trường chứng khoán Hoa Kỳ. Giống như StockNet, nó áp dụng một công thức phân loại nhị phân với một ngưỡng. Trung bình trên ba tập dữ liệu này, GPT-4 với lời nhắc không lần nào đạt được hiệu suất cao hơn (54% trên Độ chính xác) so với FinMA (52% trên Độ chính xác) và kết quả thấp hơn một chút so với mô hình SOTA (58% trên Độ chính xác). Mặc dù các số liệu NLP như Độ chính xác thường được sử dụng, nhưng chúng không đủ để đánh giá SMP. Điều quan trọng là phải xem xét các số liệu đánh giá tài chính, chẳng hạn như tỷ lệ Sharpe, cũng như kết quả mô phỏng kiểm tra lại.
Tóm tắt văn bản (Summ)
Tóm tắt (Summ) là tạo ra một bản tóm tắt ngắn gọn từ các tài liệu trong khi truyền đạt thông tin chính của nó thông qua một phương pháp trích xuất hoặc trừu tượng. Trong tài chính, nó tương đối ít được khám phá do thiếu các tập dữ liệu chuẩn, những thách thức với các đánh giá của các chuyên gia trong lĩnh vực này và sự cần thiết của các tuyên bố từ chối trách nhiệm khi trình bày lời khuyên tài chính. InvestLM bao gồm các tác vụ tóm tắt lần đầu tiên, tiến hành các thử nghiệm trên tập dữ liệu ECTSum. ECT-Sum bao gồm 2.425 cặp tài liệu-tóm tắt, chứa Bản ghi cuộc gọi thu nhập (ECT) và tóm tắt dấu đầu dòng từ Reuters. Nó báo cáo kết quả đánh giá trên nhiều số liệu khác nhau, bao gồm ROUGE-1, ROUGE-2, ROUGE-L và BERTScore. Tương tự như các tác vụ tài chính phức tạp khác, mô hình SOTA dành riêng cho tác vụ (47% trên ROUGE-1) vượt trội hơn tất cả các LLM. Theo các tác giả của InvestLM, trong khi GPT-4 với lời nhắc không lần nào (30% trên ROUGE-1) cho thấy hiệu suất vượt trội so với FinLLMs, thì các mô hình thương mại tạo ra các câu trả lời quyết định.
Tác vụ tóm tắt mang đến các cơ hội phát triển đáng kể, khám phá xem FinLLMs có thể vượt trội hơn các mô hình SOTA dành riêng cho tác vụ hay không. Để nghiên cứu đang diễn ra, nghiên cứu này bao gồm tập dữ liệu tóm tắt tài chính, MultiLing 2019, chứa 3.863 cặp tài liệu-tóm tắt được trích xuất từ các báo cáo thường niên của Vương quốc Anh được liệt kê trên Sở giao dịch chứng khoán London (LSE). Nó cung cấp ít nhất hai bản tóm tắt tiêu chuẩn vàng cho mỗi báo cáo thường niên.
Thảo luận
Trong sáu chuẩn, hiệu suất của FinPLMs miền hỗn hợp là đáng chú ý đối với các tác vụ SA, TC và NER, cho thấy rằng việc sử dụng PLM với tinh chỉnh cho một tác vụ cụ thể có thể là một cách tiếp cận thực tế tùy thuộc vào độ phức tạp của tác vụ. Đối với các tác vụ QA, SMP và Summ, các mô hình SOTA dành riêng cho tác vụ vượt trội hơn tất cả các LLM, cho thấy các lĩnh vực cần cải thiện trong FinLLMs. Đáng chú ý, GPT-4 cho thấy hiệu suất ấn tượng trên tất cả các chuẩn ngoại trừ tác vụ Summ, cho thấy rằng việc mở rộng quy mô mô hình một mình có thể không đủ để có hiệu suất tối ưu trong tài chính. Vì hầu hết FinLLMs được tinh chỉnh hướng dẫn đều sử dụng cùng một tập dữ liệu để đánh giá của họ, nghiên cứu này bao gồm các tập dữ liệu bổ sung cho nghiên cứu trong tương lai.
Các nhiệm vụ và tập dữ liệu NLP tài chính nâng cao
Các tác vụ và tập dữ liệu chuẩn được thiết kế đúng cách là một nguồn tài nguyên quan trọng để đánh giá khả năng của LLMs, tuy nhiên, 6 tác vụ chuẩn hiện tại vẫn chưa giải quyết các tác vụ NLP tài chính phức tạp hơn. Trong phần này, nghiên cứu này trình bày 8 tác vụ chuẩn nâng cao và biên dịch các tập dữ liệu liên quan cho từng tác vụ.
Tác vụ Trích xuất quan hệ (RE) nhằm mục đích xác định và phân loại các mối quan hệ giữa các thực thể được ngụ ý trong văn bản. Tương tự như NER, tác vụ này là một phần của Trích xuất thông tin. Tập dữ liệu FinRED được phát hành cho RE và được tuyển chọn từ tin tức tài chính và bản ghi cuộc gọi thu nhập, chứa 29 thẻ quan hệ (ví dụ: thuộc sở hữu của) dành riêng cho lĩnh vực tài chính.
Phát hiện sự kiện (ED) trong tài chính liên quan đến việc xác định tác động của cách các nhà đầu tư nhận thức và đánh giá các công ty liên quan. Tập dữ liệu Event-Driven Trading (EDT) được phát hành cho ED và bao gồm 11 loại phát hiện sự kiện của công ty. EDT bao gồm 9.721 bài báo tin tức với các nhãn sự kiện cấp mã thông báo và thêm 303.893 bài báo tin tức với dấu thời gian cấp phút và nhãn giá cổ phiếu.
Phát hiện nhân quả (CD) trong tài chính tìm cách xác định các mối quan hệ nhân quả trong văn bản thực tế, nhằm mục đích phát triển khả năng tạo ra các bản tóm tắt tường thuật tài chính có ý nghĩa. Hội thảo về Xử lý tường thuật tài chính (FNP) giải quyết tác vụ này hàng năm và đóng góp các tập dữ liệu. Một trong những tập dữ liệu được phát hành mở từ FNP, FinCausal20 chia sẻ hai tác vụ: phát hiện một sơ đồ nhân quả trong một văn bản nhất định và xác định các câu nhân quả.
Suy luận số (NR) trong tài chính nhằm mục đích xác định các con số và toán tử toán học ở dạng chữ số hoặc chữ, để thực hiện các phép tính và hiểu bối cảnh tài chính (ví dụ: tiền mặt và các khoản tương đương tiền mặt). Một số tập dữ liệu được giới thiệu cho các tác vụ NER và QA cũng được thiết kế để suy luận số, bao gồm: FiNER-139, FinQA, ConvFinQA.
Nhận dạng cấu trúc (SR) là một tác vụ tập trung vào Phát hiện ranh giới cấu trúc trong một tài liệu (ví dụ: văn bản, bảng hoặc hình ảnh) và nhận ra các mối quan hệ logic giữa các bảng và nội dung xung quanh hoặc giữa các ô trong một bảng. IBM Research đã phát hành tập dữ liệu FinTabNet, được thu thập từ các báo cáo thu nhập của các công ty S&P 500. Tập dữ liệu này bao gồm các tài liệu PDF phi cấu trúc với các chú thích chi tiết về cấu trúc bảng. Các tập dữ liệu FinQA và ConvFinQA, được bao gồm trong các tác vụ QA, đã được phát triển thêm từ FinTabNet.
Hiểu đa phương thức (MM) là một nhiệm vụ đầy thách thức trên nhiều lĩnh vực. Gần đây, một số tập dữ liệu tài chính đa phương thức đã được giới thiệu. MAEC biên soạn dữ liệu đa phương thức (văn bản, chuỗi thời gian và âm thanh) từ bản ghi cuộc gọi thu nhập trên quy mô lớn hơn, với 3.443 phiên bản và 394.277 câu. Ngoài ra, MONOPOLY giới thiệu dữ liệu video từ bản ghi cuộc gọi chính sách tiền tệ trên sáu ngân hàng trung ương, chia sẻ 24.180 mẫu từ 340 video với kịch bản văn bản và chuỗi thời gian.
Dịch máy (MT) trong tài chính nhằm mục đích không chỉ dịch các câu từ ngôn ngữ nguồn sang ngôn ngữ đích mà còn hiểu ý nghĩa theo ngữ cảnh tài chính bằng các ngôn ngữ khác nhau. MINDS-14 bao gồm 8.168 mẫu dữ liệu trợ lý giọng nói ngân hàng ở định dạng văn bản và âm thanh trên 14 ngôn ngữ khác nhau. MultiFin bao gồm 10.048 mẫu bao gồm các chủ đề tài chính với 6 nhãn cấp cao (ví dụ: Tài chính) và 23 nhãn cấp thấp (ví dụ: M&A & Định giá), có nguồn gốc từ các bài báo tài chính công khai bằng 15 ngôn ngữ khác nhau.
Dự báo thị trường (MF) là một nhiệm vụ thiết yếu trên thị trường tài chính, bao gồm dự đoán giá thị trường, sự biến động và rủi ro. Nhiệm vụ này vượt ra ngoài Dự đoán chuyển động chứng khoán (SMP), vốn hình thành các vấn đề như một nhiệm vụ phân loại. Các tập dữ liệu được giới thiệu trong các nhiệm vụ Phân tích tình cảm, Phát hiện sự kiện và Đa phương thức cũng được thiết kế để Dự báo thị trường. Ở đây, chúng ta bao gồm một danh sách các tập dữ liệu có liên quan đến MF: StockEmotions (SA), EDT (ED), MAEC (MM-audio) và MONOPOLY (MM-video).
Cơ hội và thách thức
Trong phần này, chúng ta làm nổi bật các khía cạnh khác nhau hướng dẫn các hướng đi trong tương lai của FinLLMs, bao gồm tập dữ liệu, kỹ thuật, đánh giá, triển khai và các ứng dụng trong thế giới thực.
Tập dữ liệu: Dữ liệu chất lượng cao và dữ liệu đa phương thức có ý nghĩa quan trọng đối với việc phát triển FinLLMs phức tạp. Vì hầu hết FinLLMs đào tạo LLMs miền chung trên dữ liệu dành riêng cho tài chính, thách thức nằm ở việc thu thập dữ liệu tài chính chất lượng cao ở nhiều định dạng khác nhau. Xây dựng các tập dữ liệu tài chính được tinh chỉnh hướng dẫn bằng cách chuyển đổi các tập dữ liệu hiện có cho các nhiệm vụ NLP tài chính cụ thể sẽ tạo điều kiện phát triển FinLLMs tiên tiến. Ngoài ra, nghiên cứu về các tập dữ liệu tài chính đa phương thức sẽ ngày càng trở nên quan trọng, nâng cao hiệu suất của FinLLMs trên các tác vụ phức tạp.
Kỹ thuật: Các thách thức chính trong tài chính bao gồm việc sử dụng dữ liệu nội bộ mà không vi phạm quyền riêng tư, gây ra các vấn đề bảo mật, đồng thời nâng cao niềm tin vào các phản hồi do FinLLMs tạo ra. Để giải quyết những thách thức này, một số kỹ thuật được nghiên cứu tích cực trên LLMs, chẳng hạn như Tạo tăng cường truy xuất (RAG), có thể được triển khai trong lĩnh vực tài chính. Hệ thống RAG tương tự như một cách tiếp cận sách mở, truy xuất các nguồn kiến thức bên ngoài không được đào tạo trước (ví dụ: dữ liệu riêng tư được truy vấn) để nâng cao biểu diễn thông tin thô của mô hình được đào tạo trước. RAG cung cấp cho mô hình quyền truy cập vào thông tin thực tế, cho phép tạo ra các câu trả lời tham chiếu chéo, do đó cải thiện độ tin cậy và giảm thiểu các vấn đề về ảo giác. Hơn nữa, RAG cho phép sử dụng dữ liệu không thể đào tạo nội bộ mà không cần đào tạo lại toàn bộ mô hình, đảm bảo không vi phạm quyền riêng tư. Một trong những thách thức trong lĩnh vực tài chính là bất cân xứng thông tin [ly-thuyet-bat-can-xung-thong-tin-asymmetric-information-theory.html]. FinLLMs có tiềm năng giúp giảm thiểu vấn đề này bằng cách cung cấp thông tin và phân tích tài chính một cách minh bạch và dễ tiếp cận hơn.
Đánh giá: Thách thức chính trong đánh giá là kết hợp kiến thức miền từ các chuyên gia tài chính để xác thực hiệu suất của mô hình dựa trên các nhiệm vụ NLP tài chính. Các kết quả đánh giá hiện tại được trình bày bằng cách sử dụng các số liệu NLP thường được sử dụng như F1-score hoặc Độ chính xác. Tuy nhiên, các tác vụ dựa trên kiến thức yêu cầu đánh giá của con người bởi các chuyên gia tài chính, các số liệu đánh giá tài chính phù hợp trên các số liệu NLP và phản hồi của chuyên gia để điều chỉnh mô hình. Hơn nữa, các nhiệm vụ NLP tài chính nâng cao, bao gồm tám chuẩn tiếp theo mà nghiên cứu này đã trình bày, sẽ khám phá ra các khả năng ẩn của FinLLMs. Các nhiệm vụ phức tạp này sẽ đánh giá xem FinLLMs có thể đóng vai trò là các mô hình giải quyết vấn đề tài chính chung hay không, xem xét cả chi phí và hiệu suất cho các nhiệm vụ cụ thể.
Triển khai: Thách thức trong việc chọn FinLLMs và kỹ thuật phù hợp nằm ở sự đánh đổi giữa chi phí và hiệu suất. Tùy thuộc vào độ phức tạp của tác vụ và chi phí suy luận, việc chọn LLMs miền chung với lời nhắc hoặc các mô hình dành riêng cho tác vụ có thể là một lựa chọn thiết thực hơn so với việc xây dựng FinLLMs. Điều này đòi hỏi các kỹ năng kỹ thuật LLMOps, bao gồm các kỹ thuật lời nhắc mềm như Điều chỉnh hiệu quả tham số (PEFT) và các hệ thống hoạt động giám sát với quy trình Tích hợp liên tục (CI) và Phân phối liên tục (CD). Để triển khai hiệu quả các mô hình FinLLM trong doanh nghiệp, việc quản trị tài chính [cac-nhan-to-anh-huong-toi-hieu-qua-quan-tri-tai-chinh-trong-doanh-nghiep.html] đóng vai trò then chốt, đảm bảo rằng công nghệ này được tích hợp một cách chiến lược và mang lại giá trị kinh tế rõ ràng.
Ứng dụng: Thách thức trong việc phát triển các ứng dụng tài chính trong thế giới thực liên quan đến các vấn đề phi kỹ thuật, bao gồm nhu cầu kinh doanh, các rào cản trong ngành, quyền riêng tư dữ liệu, trách nhiệm giải trình, đạo đức và khoảng cách hiểu biết giữa các chuyên gia tài chính và các chuyên gia AI. Để vượt qua những thách thức này, việc chia sẻ các trường hợp sử dụng FinLLM sẽ có lợi trên nhiều lĩnh vực tài chính khác nhau, bao gồm cố vấn robo, giao dịch định lượng và phát triển mã thấp. Hơn nữa, chúng tôi khuyến khích các hướng đi trong tương lai đối với các ứng dụng tạo sinh bao gồm tạo báo cáo và hiểu tài liệu. Sự phát triển của FinLLMs cũng diễn ra song song với sự trỗi dậy của tiền điện tử [tien-dien-tu-ngan-hang.html] và các công nghệ tài chính mới nổi khác, mở ra một kỷ nguyên mới cho ngành tài chính.
Kết luận
Bài khảo sát cung cấp một cuộc điều tra ngắn gọn nhưng toàn diện về FinLLMs, bằng cách khám phá sự phát triển của chúng từ LLMs miền chung, so sánh các kỹ thuật của FinPLMs/FinLLMs và trình bày sáu chuẩn thông thường cũng như tám chuẩn và tập dữ liệu nâng cao. Đối với nghiên cứu trong tương lai, cái nhìn toàn cảnh của nghiên cứu này về FinLLMs, một bộ sưu tập dữ liệu liên quan và mở rộng để đánh giá nâng cao hơn và các cơ hội và thách thức cho các hướng đi mới cho FinLLMs nâng cao sẽ có lợi cho cả cộng đồng nghiên cứu Khoa học Máy tính và Tài chính.
Bài viết này cung cấp một cái nhìn tổng quan toàn diện về FinLLMs, một lĩnh vực đang phát triển nhanh chóng. Nghiên cứu nêu bật những cơ hội và thách thức liên quan đến việc áp dụng LLMs trong lĩnh vực tài chính, đồng thời cung cấp một lộ trình cho các nghiên cứu trong tương lai.
Download Nghiên cứu khoa học: Large Language Models In Finance: A Survey