個人でも・非医療従事者でも参加可!!医療AIの最前線へ!医療大規模言語モデルの社会実装に関するオープンリサーチコラボレーション応募サイト
12月末公開の医療リーズニングモデル研究論文を参考に、大手クラウドベンダーの協力により提供されたGPU計算資源を利用し、社会実装に向けて、日本の医療の未来を共に切り拓くためのコラボレーションを企画しました。
本研究開発は、内閣府の戦略的イノベーション創造プログラム(SIP)「統合型ヘルスケアシステムの構築における生成AIの活用」の社会実装に関わるのサブテーマの一環として行われます。
日本語医療の未来を切り拓く──
生成系AIがもたらす革新が、医療分野でも加速しています。しかし、日本語に特化した医療用AIモデルはまだ発展途上。
正確性や信頼性の向上が求められる中、この分野の課題解決に挑む絶好の機会がここにあります。
「医療特化型日本語言語モデル開発オープンリサーチコラボレーション」は、昨年の12月25日に発表された 医療リーズニングモデル開発の発表を受けて、短期間でノウハウを集めるために企画されたオープンリサーチコラボレーションプロジェクトです。
- 医療リーズニングモデル例:HuatuoGPT-o1(GitHubリポジトリ)
大手クラウドベンダーの協力により提供された最新の計算機リソース(NVIDIA H100×8台)を駆使して、医療現場で実際に役立つ日本語特化型言語モデルの開発を目指します。
2025年2月~3月の間、医療AIの新たな地平を切り開くこの挑戦に、ぜひご応募ください。
応募方法(個人・非医療従事者でも参加可能)
- 個人、チームどちらでも参加が可能です。個人の場合は参加者のスキルをもとに運営側でチーム分けを実施いたします。18時以降で参加いただける方もぜひ連絡ください。
- チーム構成やこれまでの実績(AI開発経験、医療関連知識など)を簡潔に記載ください。
- 募集人数:100名程度
- 紹介者・提出内容を審査し、主催側にて参加者を選抜します。
【2次募集開始】2025年2月15日(土)締め切り
※なお、本オープンコラボレーションは、諸般の事情により予告なく中止または変更となる場合がございます。その際は、公式ウェブサイトおよび登録されたメールアドレス宛に速やかにご案内いたしますので、ご了承ください。
オープンコラボレーション概要
開催期間
-
- 2025年2月16日(日)〜3月9日(日)(3週間)
開催形態
- オンラインでの学習環境を基本とし、随時成果物の評価を行う。
- 期間中に数回のオンラインミーティングや中間報告会を実施予定。
募集要項
- 募集人数:100名程度
- メンバー内訳例:
- メンバー内訳例:リーダー:1名、AIエンジニア:2〜10名
- 医療関係者:2〜10名(こちらで手配が可能です)
- 学生・社会人の方の参加も可能です。ぜひふるってご参加をください。ぜひふるってご参加をください。
- 勤務後での参加も可能なように運営をさせてください。
各チームへの提供リソース
- GPU:H100 × 最大8台/チームを想定しています
- データセット:下記のSFT・CoTデータ、生成テキスト等
- 開発用環境:
- DeepLearningに特化した環境構築済みクラウドGPUマシン
- 分散学習を可能とするクラスタ環境
報酬
- コラボレーションに最も協力いただいた優勝チームへの豪華報酬を企画しています。チーム採択後にてご説明をさせてください。
制限
- 本コラボレーションを通じて作成されたモデル・生成テキストの著作権は、原則、株式会社プレシジョンに帰属します。
目 的
- 医療特化型日本語言語モデルの開発
- 医師国家試験の点数を上昇させ、医療従事者が実務で活用できるレベルの正確性・信頼性を備えた言語モデルを目指す。
- 日本語言語モデル開発の促進
- 国産技術の発展を推進し、医療分野でのAI活用の高度化を図る。
- CoT、強化学習などを取り入れた日本語言語モデル開発の促進。
スケジュール
時期 | 内容 |
|
参加チーム応募締め切り ※応募者は順次面接等をさせていただきます |
2025年2月16日(日) | データセット配布 |
2025年2月16日(日) | コラボレーション開始 |
2025年3月2日(日) | 中間報告会(進捗共有、Q&A対応) |
2025年3月9日(日) | 最終報告会、結果発表 |
評価方法
- GPT-4oによる評価
- AIモデル評価用に、非公開のプロンプトを用いて総合的な言語理解力・生成品質を測定。
- Public評価
- テストデータセットの50%を公開し、参加者が自ら評価できる形式。
- Private評価
- テストデータセットの残り50%を非公開とし、最終的な順位決定を実施。
利用可能なリソース
- GPU: H100 × 80台(総計)
- 各チームに分配する形で8台/チームを基本とし、合計8チームで利用。
- モデル
- HuatuoGPT-o1(GitHubリポジトリ)
- その他、以下の10B未満モデル
- Qwen2.5-7B(Hugging Faceリンク)
- Llama 3.1 Swallow-8B(Hugging Faceリンク)
- Gemma2-9B(Hugging Faceリンク)
- Phi-4(Hugging Faceリンク)
- 学習データ
1. オープンQAデータ
-
-
- 医師国家試験(問題文)を活用した独自コーパス。
- 例:FreedomIntelligence/medical-o1-verifiable-problem
- 問題文およびそれに対応する解答を整備したデータセットを作成。
-
2. 医学問題のCoTデータ
-
-
- Chain-of-Thought (CoT) を用いた思考過程学習用データ。
- 例:FreedomIntelligence/medical-o1-reasoning-SFT
- 医療における論理的思考プロセスの強化を目的とした独自データセットを作成。
-
今後の展望
- 大規模モデルへの展開
- 今後、さらなる大規模モデルの研究開発計画策定しています。
- 【2次募集】2025年2月15日(土)締め切り
企画・運営
株式会社プレシジョン(SIP採択研究機関)