
GRPOファインチューニング:はじめてのReward Learning
大変お久しぶりです。九州支社のとみーです。 つい先日弊社のAIの取り組みに関して「IIJ ✖️ AI活用」で藤本が述べたように、「初めに個人あり」な側面がありまして、私もその個人の一人なんだろうと思っ…
2025年03月04日 火曜日
大変お久しぶりです。九州支社のとみーです。 つい先日弊社のAIの取り組みに関して「IIJ ✖️ AI活用」で藤本が述べたように、「初めに個人あり」な側面がありまして、私もその個人の一人なんだろうと思っ…
2025年03月04日 火曜日
こんにちわ。とみーです。皆様いかがお過ごしでしょうか? 今回色々ローカルLLMの活用法を模索する中で、やっぱファインチューニングも必要だということで取り組んでいたりします。 その内容について、知った内…
2024年10月01日 火曜日
2024/08/22修正: はてなブックマークのコメントから、「それってデシリアライズって言わないよ」というご指摘を頂戴しました。 恥ずかしながら浅学であったがゆえに用語を取り違えたまんま長らく覚えて…
2024年08月20日 火曜日
執筆中にお休みしたため・・ 本記事なのですが、執筆したのは2024年6月時点の情報となります。 実は執筆してる最中に持病の定期治療時期に差し掛かってしまい、気づけば入院中何もできなくなりまして・・少し…
2024年07月02日 火曜日
進化的マージモデルとは? これは、Sakana.aiさんが2024年3月21日発表した、「進化的アルゴリズムによる基盤モデルの構築」で述べられた手法を用いて作られたLLMを指しています。 引用すると、…
2024年05月23日 木曜日
LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラ…
2024年05月07日 火曜日
ぶわーっと色んなモデルが登場しましたね。 Googleが現地時間2024年2月21日、Geminiのテクノロジーを用いて開発したエッジAI向けモデル、Gemmaをリリースしましたね。 Gemma: I…
2024年02月28日 水曜日