|
新聞詳情
百川開源全球最強醫(yī)療大模型M3,「嚴肅問診」定義AI醫(yī)療新能力發(fā)表時間:2026-01-14 10:49 百川智能正式開源新一代醫(yī)療大模型 Baichuan-M3,其在全球最權(quán)威的醫(yī)療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復(fù)雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領(lǐng)域,M3也實現(xiàn)了超越,幻覺率3.5全球最低。 此外,M3 還首次具備了原生的“端到端”嚴肅問診能力。它能像醫(yī)生一樣主動追問、逐層逼近,把關(guān)鍵病史和風險信號問出來,進而在完整的信息上進行深度醫(yī)學(xué)推理。評測顯示,其問診能力顯著高于真人醫(yī)生的平均水平。 Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B 醫(yī)療溝通和推理能力超越 GPT-5.2,登頂世界第一 2025年5月份,OpenAI發(fā)布HealthBench,由 262 位來自 60 個國家的醫(yī)生共同構(gòu)建,收錄了 5000 組高度逼真的多輪醫(yī)療對話,構(gòu)建了全球最權(quán)威、也最貼近真實臨床場景的醫(yī)療評測集。這一事件,被視為 OpenAI 在醫(yī)療領(lǐng)域開始“重兵投入”,吹響進軍醫(yī)療的號角。 相當長一段時間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫(yī)療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。
2025年,強化學(xué)習(xí)無疑是新一代 Scaling Law 的技術(shù)中軸。在M2 發(fā)布后的五個月里,我們對強化學(xué)習(xí)系統(tǒng)進行了全面升級,將原本以患者模擬器和靜態(tài) Rubric 為主的半動態(tài)反饋,升級為隨模型能力不斷演進的全動態(tài) Verifier System。隨著監(jiān)督信號持續(xù)變細、變難,模型得以不斷突破能力上限,使 M3 在復(fù)雜醫(yī)學(xué)問題上的表現(xiàn)實現(xiàn)躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當前全球醫(yī)療溝通和推理能力最強的醫(yī)療大模型。 重構(gòu)幻覺抑制的訓(xùn)練范式,刷新醫(yī)療幻覺率底線 幻覺是這一代大模型技術(shù)范式的通病,更是AI進入嚴肅醫(yī)療的攔路虎。在大多數(shù)場景幻覺只是體驗問題,而在嚴肅醫(yī)療場景可導(dǎo)致安全事件。 降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業(yè)最低。OpenAI也是第一個單獨評測醫(yī)療能力和提供醫(yī)療服務(wù)的通用模型公司。 國內(nèi) DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進行醫(yī)療健康咨詢。但大多數(shù)模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。 百川M3將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強化學(xué)習(xí)過程中將醫(yī)學(xué)事實一致性作為核心訓(xùn)練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓(xùn)練方法將醫(yī)學(xué)事實可靠性內(nèi)化為M3自身的基礎(chǔ)能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學(xué)知識進行穩(wěn)定、可信的作答。 通過將事實一致性約束融入訓(xùn)練流程,M3重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強的純模型設(shè)置下,醫(yī)療幻覺率3.5,超越GPT-5.2,達到全球最低水平。
構(gòu)建「嚴肅問診」新能力,端到端問診超越真人醫(yī)生 除了強推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。2025年行業(yè)的技術(shù)共識是,用戶提供更完整的上下文,模型才有更好的表現(xiàn)。可在醫(yī)療領(lǐng)域,患者很難完整表達自己的病癥,需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉(zhuǎn)變成可做診療決策的信息。 HealthBench代表了OpenAI對臨床場景的認知高度,然而它本質(zhì)上是一個切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標,完整的患者信息收集。這也正說明了行業(yè)對問診重要性和建模思路的理解不足。 應(yīng)用實踐中,通過prompt“你是一位經(jīng)驗豐富的醫(yī)生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。例如,臨床醫(yī)生面對患者的第一反應(yīng),永遠是先排除危急重癥,再考慮常規(guī)診療,這是刻在職業(yè)本能里的安全優(yōu)先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關(guān)鍵風險點展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫(yī)療“安全第一”的原則。 針對這一行業(yè)困境,我們提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗的思維過程,第一次系統(tǒng)性地“白盒化”。 圍繞SCAN原則,我們借鑒醫(yī)學(xué)教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,該體系以真實臨床經(jīng)驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態(tài)、多輪的方式進行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態(tài)評測新范式。 同時,我們還使用原生模型訓(xùn)練方法取代角色扮演prompt,針對GRPO無法穩(wěn)定進行長對話訓(xùn)練的問題,設(shè)計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準,把風險兜住,讓輸出經(jīng)得起復(fù)核。 在實驗過程中我們發(fā)現(xiàn),問診準確度每增加2%,診療結(jié)果準確度就會增加1%。評測結(jié)果顯示,M3 在SCAN的四個維度均顯著高于人類醫(yī)生基線水平,并大幅領(lǐng)先于國內(nèi)外頂尖模型,成功構(gòu)建了從精準的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。
從 1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫(yī)療正在全球范圍內(nèi)提檔加速,競爭也正式進入深水區(qū)。在這場競速中,作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè),百川持續(xù)突破低幻覺率、端到端問診和復(fù)雜臨床推理等核心能力,已從“跟隨者”躍遷為行業(yè)“引領(lǐng)者”與新范式的“定義者”,正以硬核實力扛起中國 AI 醫(yī)療發(fā)展的旗幟。 我們的醫(yī)療應(yīng)用“百小應(yīng)”已同步接入 M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。 |