GRPOファインチューニング:はじめてのReward Learning 大変お久しぶりです。九州支社のとみーです。 つい先日弊社のAIの取り組みに関して「IIJ ✖️ AI活用」で藤本が述べたように、「初めに個人あり」な側面がありまして、私もその個人の一人なんだろうと思っ… とみ(とみーとも言う) 2025年03月04日 火曜日 unsloth評価関数FastLanguageModelローカルLLMGRPOファインチューニングPhi-4DeepSeek-R1DeepSeekReasoning長考モデルai-excavationLLM沼LLM