有些模型譬如Meta的Code Llama-Instruct是用Supervised Learning再加RLHF。
來源:
大觀園的賈探春
於
2025-02-05 17:11:26
[
博客
] [
舊帖
] [
給我悄悄話
] 本文已被閱讀:次