亚洲国产精品一区二区美利坚,一女被多男玩喷潮视频,在线观看免费a∨网站,中文字幕 一区二区三区,亚洲区欧美区综合区自拍区

推理模型:“慢思考”讓決策更周全

6個月前 來源:科技日報 觀看:62

2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”0HI即熱新聞——關注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術學院教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術”可以實現(xiàn),而是需要大模型具備強大的思維能力。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學習,實現(xiàn)對后續(xù)空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學、醫(yī)學、代碼等領域,會產生更好的效果和意想不到的應用場景。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習實現(xiàn)反思糾錯0HI即熱新聞——關注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經(jīng)驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環(huán)境的交互中通過試錯來學習最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應行動,并根據(jù)行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環(huán)往復,不斷接近最優(yōu)策略。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學習。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

可靠算力仍是關鍵因素0HI即熱新聞——關注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯(lián)合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態(tài)等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰(zhàn)。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數(shù)據(jù)及權重,訓練任務類型也由在線實時響應變?yōu)殡x線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關,團隊自研出訓練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產算力上的成功適配,端到端效率大幅提升。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”0HI即熱新聞——關注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術學院教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術”可以實現(xiàn),而是需要大模型具備強大的思維能力。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學習,實現(xiàn)對后續(xù)空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學、醫(yī)學、代碼等領域,會產生更好的效果和意想不到的應用場景。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習實現(xiàn)反思糾錯0HI即熱新聞——關注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經(jīng)驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環(huán)境的交互中通過試錯來學習最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應行動,并根據(jù)行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環(huán)往復,不斷接近最優(yōu)策略。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學習。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

可靠算力仍是關鍵因素0HI即熱新聞——關注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯(lián)合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態(tài)等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰(zhàn)。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數(shù)據(jù)及權重,訓練任務類型也由在線實時響應變?yōu)殡x線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關,團隊自研出訓練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產算力上的成功適配,端到端效率大幅提升。0HI即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://m.enbeike.cn/news-2-562-0.html推理模型:“慢思考”讓決策更周全

聲明:本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。

上一篇:新疆哈密上線 “滿血版”DeepSeek-R1云服務

下一篇:新裝置解決石油產業(yè)抽油桿防銹難題 油田小站捧回國際大獎

為你推薦
圖源:圖蟲創(chuàng)意 還有10天就是除夕,作為2025蛇年春晚獨家電商...
01-21
過去半年,為防治部分地方政府招商“內卷化”,遏制拼優(yōu)惠、拼“政策洼地”式的政府招商模式,一系列文件、法規(guī)密集推出。 “去年8月拼...
01-21
  1月20日,B站五位博主比拼理財收益的視頻火了?! ∶课徊┲鞯某跏急窘馂?萬,最近一個月各自分頭理財,通過最后的收益角逐出 “理財王”?! ∫粋€月下來,五位up主投資均...
01-21
1 月 24 日消息,如果你正在猶豫是否選擇電動汽車(EV)作為下一輛新車,安全性很可能是一個重要的考慮因素。與傳統(tǒng)的燃油車(ICE)相比,電動汽車究竟更安全還是更具風險?澳大利...
01-25
“若前方無路,我便踏出一條路;若天理不容,我便扭轉這乾坤?!彪娪啊赌倪?》開年“王炸”,讓人看到了哪吒打破命運,勇敢做自己,最終活出自我的過程。新年剛過,國內車市異?!伴_卷”,...
02-06
  【文化評析】  作者:劉誠(中國社會科學院財經(jīng)戰(zhàn)略研究院研究員)  近年來,微短劇在我國迅猛...
01-24
當前,《遠親近鄰,擇良而交》在網(wǎng)絡上熱播,其精心設計的劇情、服裝和音樂吸引了大量觀眾。劇中的人物性格鮮明,命運曲折,成為了觀眾心中的經(jīng)典角色。接下來是關于...
02-20
  大家都知道“吃頭孢不能喝酒”  但許多人并不知道這背后的原理  也不知道除了頭孢以外...
01-24
21世紀經(jīng)濟報道記者 韓利明 上海報道隨著四大跨國疫苗企業(yè)輝瑞、葛蘭素史克(GSK)、默沙東、賽諾菲陸續(xù)發(fā)布2024年業(yè)績,21世紀經(jīng)濟報道記者依...
02-11
澎湃新聞記者從中國科學院大學資源與環(huán)境學院方面獲悉,中國科學院大學資...
01-21
  大眾網(wǎng)記者 司心鵬 報道  4月1日,華為ICT大賽2023—2024全國總決賽成績公布,山東商業(yè)職業(yè)技術學院云計算技術與應用產業(yè)學院學生團隊獲得昇騰AI賽道國賽二等獎2項,計...
01-21
  安徽農信系統(tǒng)反腐工作正在持續(xù)深入推進。2025年伊始,安徽省紀檢監(jiān)察網(wǎng)站通報了兩起農信系統(tǒng)...
01-22
  今年以來,銀行、理財子公司布局“理財夜市”熱度持續(xù)。多家銀行、理財子公司發(fā)布關于理財夜...
01-22
天秤座的男生注重外貌和氣質,他們喜歡溫柔、優(yōu)雅、有內涵的女人。下面就讓我們來看看天...
01-22
白羊座男生通常被認為是熱情、沖動和直率的代表。他們對待感情非常認真,一旦愛上一個人...
01-22
兒童口號大全?  1、寶貝向前沖,這里屬于你?! ?、精彩藝術,盡放未來。  3、寶貝可愛,我們相伴?! ?、來鹿優(yōu)優(yōu),做全能寶寶?! ?、希望,由此開始;未來,由此騰飛?! ?、關...
02-12
矮個子男生穿搭? 155矮個子男生穿搭?一、矮個子男生穿搭?1.腰部高出5cm-7cm矮個子男生選擇男士褲子時,腰部高出5cm-7cm是最好的。這樣的選購小心機,對小個子男生來說很適用。2.腳...
02-17
2月11日消息,匯通達網(wǎng)絡旗下“千橙云SaaS+”平臺已全面接入DeepSeek。接入DeepSeek之后,千橙云SaaS+平臺將實現(xiàn)“數(shù)字化管理”“智能化服務”“營銷服務”“供應鏈優(yōu)化”“全...
02-11
2月20日消息,展辰集團董事、工業(yè)漆事業(yè)部總經(jīng)理張君一行近日到訪涂多多。國聯(lián)股份高級副總裁、涂多多CEO劉齋,涂多多高級副總裁、跨境產發(fā)部總經(jīng)理邵春生代表公司熱情接待來訪...
02-20
2月23日消息,在線旅游預訂公司Booking公布2024年第四季度和全年業(yè)績。財報顯示,2024年第四季度,Booking客房預訂夜數(shù)增長13%至2.61億;總預訂額同比增長約17%至372億美元;收入同比...
02-24
圖源:圖蟲創(chuàng)意 一張刀郎演唱會門票,成為眼下最熱門的“盡孝...
03-04
2025年,賣奶茶的拼命IPO。作者 | 蕭風來源 | 投資家(ID:touzijias)2025年,賣奶茶的拼命IPO。投資家網(wǎng)獲悉,號稱“每天一杯喝不膩”的新式茶飲公司古茗已通過港交所聆訊、更新招股...
01-22
【#中石油7.3億在吉林成立新能源公司# 含新能源汽車相關業(yè)務】天眼查App顯示,近日,中石油吉油(乾安)新能源有限公司成立,法定代表人為彭軍,注冊資本約7.3億人民幣,經(jīng)營范圍含發(fā)電業(yè)...
02-09
快科技2月5日消息,今天,華為董事長梁華透露了過去1年公司的成績,還是相當不錯的。 華為董事長梁華在廣東省高質量發(fā)展大會上透露,2024年華為整體經(jīng)營達到預期,全年...
02-06
由黑曜石娛樂開發(fā)制作的經(jīng)典TRPG游戲《龍與地下城:無冬之夜2》,是一款基于《龍與地下城》(可簡稱為D&D)3版規(guī)則的改編電子游戲,最初發(fā)售于2006年。 近日知名爆料推...
02-13
新華社布宜諾斯艾利斯2月5日電(記者張鐸)阿根廷政府5日宣布,阿總統(tǒng)米萊已決定該國退出世界衛(wèi)生組織。阿根廷總統(tǒng)府發(fā)言人阿多爾尼當天在新聞發(fā)布會上說,阿根廷不允許任何國際組...
02-06
加沙地帶(資料圖) 當?shù)貢r間9日,針對以色列總理內塔尼亞胡稱可以在沙特境內建立巴勒斯坦國的言論,沙特外交部發(fā)表聲明稱,相關言論將導致巴勒斯坦人民流離失所,旨在轉移人們對以...
02-09
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕