GRPOファインチューニング:はじめてのReward Learning 大変お久しぶりです。九州支社のとみーです。 つい先日弊社のAIの取り組みに関して「IIJ ✖️ AI活用」で藤本が述べたように、「初めに個人あり」な側面がありまして、私もその個人の一人なんだろうと思っ… とみ(とみーとも言う) 2025年02月28日 金曜日 Phi-4DeepSeek-R1DeepSeekReasoning長考モデルai-excavationLLM沼LLMunsloth評価関数FastLanguageModelローカルLLMGRPOファインチューニング