|
本文將根據Direct Preference Optimization: Your Language Model is Secretly a Reward Model一文,說明為大型語言模型微調的目的以及DPO在微調過程中發揮的作用,並配合“Build a Large Language Model (From Scratch)”一書,整理DPO實際操作流程重點。
✨ Inspired by “Direct Preference Optimization: Your Language Model is Secretly a Reward Model”(Rafailov, 2024), Build a Large Language Model (From Scratch)(Raschka, 2024) ✨ 團隊成員來自國震中心與台大土木合設AI研究中心(NCREE — NTUCE Joint Artificial Intelligence Research Center) DPO是什麼? 為大型語言模型微調的目的 如下圖的第二階段到第三階段之過程,微調(Fine-tuning)為將第二階段已完成訓練之大型語言模型(pre-trained large language model),如ChatGPT,客製化至特定資料和任務上,較只利用提示(prompting)更進一步,雖然提示可有效引導語言模型,但微調可讓模型更貼合資料定義的專門任務,包括調整語調和風格,藉由自己的資料專門化既有的語言模型,無需大量資料和運算資源從零訓練語言模型。
0 評論
(Deep Dive into LLMs Like ChatGPT)
本篇為根據Andrej Karpathy所發布的Deep Dive into LLMs like ChatGPT分享讀書筆記。 ✨ Inspired by “Deep Dive into LLMs like ChatGPT”(Karpathy, 2023) ✨ 團隊成員來自國震中心與台大土木合設AI研究中心(NCREE — NTUCE Joint Artificial Intelligence Research Center) 前言 大型語言模型是一種強大的人工智慧系統,專為處理和生成基於大量網路數據的文字而設計,其能力建立在深度學習技術之上。最基礎的概念則是用以預測文字序列。 下圖為構建大型語言模型的不同階段與其中的關鍵步驟,訓練模型的步驟就如人們學習新知,首先需要了解背景知識,接著參考已知的問題與解法,最後再透過練習題內化成自身的知識,本篇接下來的內容也將依此順序做介紹。 本篇為根據Andrej Karpathy所發布的[1hr Talk] Intro to Large Language Models分享讀書筆記,內容將分成三大部分,依序說明大型語言模型為何、發展趨勢、潛在安全性問題等。 ✨ Inspired by “[1hr Talk] Intro to Large Language Models”(Karpathy, 2023) ✨ 團隊成員來自國震中心與台大土木合設AI研究中心(NCREE — NTUCE Joint Artificial Intelligence Research Center) PART 1. Large Language Model(LLM)|大型語言模型簡介
|
RSS 訂閱