IIJ Engineers Blog

[タグ]長考モデル

「GRPOファインチューニング:はじめてのReward Learning」のイメージ

GRPOファインチューニング:はじめてのReward Learning

大変お久しぶりです。九州支社のとみーです。 つい先日弊社のAIの取り組みに関して「IIJ ✖️ AI活用」で藤本が述べたように、「初めに個人あり」な側面がありまして、私もその個人の一人なんだろうと思っ…