Tether推出QVAC Genesis II,將其公共合成教育資料集擴展至148億枚代幣。


Tether推出QVAC Genesis II,將其公共合成教育資料集擴展至148億枚代幣。

金融科技公司 Tether 據報道,其人工智慧研究部門 QVAC Data 發布了 QVAC Genesis II,這是專為人工智慧預訓練而設計的大規模合成資料集的擴展版本。此次更新新增了 107 億個標記,使 QVAC Genesis 資料集的總規模達到 148 億個標記,涵蓋 19 個教育學科領域。此次擴展提升了面向人工智慧開發的公開訓練資料的廣度、複雜性和分析價值。

風控中心 Genesis II 擴展了先前的 Genesis I 版本,後者建立了一個經過驗證的合成資料集,專注於基礎科學和技術領域的教育內容。新版本新增了十個學術領域的涵蓋範圍,例如化學、電腦科學、統計學、機器學習、天文學、地理、計量經濟學和電氣工程,並且還包含一個使用更新方法創建的全新大學水平物理語料庫。這兩個版本共同構成了目前公開可用的最大的以教育內容為中心的合成資料集。

選項級推理增強了合成人工智慧訓練數據 

此次更新的核心是一種名為「選項級推理」的改進型資料生成技術,旨在從模型的錯誤和正確回答中捕捉結構化的推理過程。此方法並非將正確答案視為最終結果,而是以多項選擇題的形式評估每個可能的選項,從而強化有效的邏輯,並明確指出常見的誤解。此過程產生的訓練材料優先考慮邏輯連貫性、因果關係和基於充分資訊的決策,而非簡單的答案準確率。

該方法與Genesis第一版中引入的故障分析框架相輔相成,形成一個綜合流程,其中生成的每個項目都具有教學價值。獨立評估表明,與使用早期合成資料集訓練的系統相比,使用Genesis II訓練的系統在推理表現方面顯著提升,並且能夠產生更清晰、更一致的解釋。

除了擴大資料集規模外,此次發布也標誌著人工智慧教育訓練資料的建構方式發生了轉變。這種方法不再強調大規模收集非結構化文本,而是專注於開發能夠支持推理、解釋和概念理解的數據,而不僅僅是複製。

與初始版本一致,擴展後的資料集將公開提供給研究人員、學術機構和獨立開發者使用,供他們在非專有環境下工作。本資料集採用知識共享署名-非商業性使用 4.0 國際授權協議發布,彰顯了我們對開放協作研究實務的承諾。

此次發布也符合目前支援去中心化、本地部署型人工智慧系統的努力,這些系統不依賴集中式雲端基礎架構。透過增強高品質開放訓練資料的可用性,該計劃旨在降低創新門檻,並擴大全球研究界獲取先進人工智慧能力的途徑。





Source link

免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。

Like (0)
Mpost的头像Mpost作者
Previous 5小时前
Next 2025 年 5 月 19 日 11:23

相关推荐

发表回复

Please Login to Comment
SHARE
TOP