日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

機(jī)器之心報(bào)道

編輯:小舟、杜偉

此次,Claude 2 除了一大波能力上的升級(jí),更重要的是大家都可以用了。

今日,那個(gè)被很多網(wǎng)友稱為「ChatGPT 最強(qiáng)競(jìng)品」的人工智能系統(tǒng) Claude 迎來(lái)了版本大更新。

Claude 2 正式發(fā)布!

據(jù)介紹,Claude 2 在編寫代碼、分析文本、數(shù)學(xué)推理等方面的能力得到加強(qiáng),并且可以產(chǎn)生更長(zhǎng)的響應(yīng)。

更重要的是,用戶可以在新的 beta 網(wǎng)站上免費(fèi)試用,并且 Claude 2 商用 API 的價(jià)格與 1.3 版本相同。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

機(jī)器之心在此前的文章中多次介紹過(guò) Claude,它是由 OpenAI 離職人員創(chuàng)建的 Anthropic 公司打造的。在 ChatGPT 發(fā)布兩個(gè)月后,該公司就迅速開(kāi)發(fā)出了 Claude,可以完成摘要總結(jié)、搜索、協(xié)助創(chuàng)作、問(wèn)答、編碼等任務(wù)。

之后持續(xù)升級(jí),五月份通過(guò) 100K Context Windows 將 Claude 的上下文窗口從 9k token 擴(kuò)展到了 100k。

現(xiàn)在終于迎來(lái)了大版本更新。Anthropic 表示,Claude 2 基于此前從用戶那里獲得的反饋建議進(jìn)行改進(jìn)。

接下來(lái)看各方面能力細(xì)節(jié)。

Claude 2 在哪些方面得到了加強(qiáng)?

總的來(lái)說(shuō),Claude 2 注重提高以下能力:

  • Anthropic 致力于提高 Claude 作為編碼助理的能力,Claude 2 在編碼基準(zhǔn)和人類反饋評(píng)估方面性能顯著提升。
  • 長(zhǎng)上下文(long-context)模型對(duì)于處理長(zhǎng)文檔、少量 prompt 以及使用復(fù)雜指令和規(guī)范進(jìn)行控制特別有用。Claude 的上下文窗口從 9K token 擴(kuò)展到了 100K token(Claude 2 已經(jīng)擴(kuò)展到 200K token,但目前發(fā)布版本僅支持 100K token)。
  • 以前的模型經(jīng)過(guò)訓(xùn)練可以編寫相當(dāng)短的回答,但許多用戶要求更長(zhǎng)的輸出。Claude 2 經(jīng)過(guò)訓(xùn)練,可以生成最多 4000 個(gè) token 的連貫文檔,相當(dāng)于大約 3000 個(gè)單詞。
  • Claude 通常用于將長(zhǎng)而復(fù)雜的自然語(yǔ)言文檔轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)格式。Claude 2 經(jīng)過(guò)訓(xùn)練,可以更好地生成 JSON、XML、YAML、代碼和 Markdown 格式的正確輸出。
  • 雖然 Claude 的訓(xùn)練數(shù)據(jù)仍然主要是英語(yǔ),但 Claude 2 的訓(xùn)練數(shù)據(jù)中非英語(yǔ)數(shù)據(jù)比例已經(jīng)明顯增加。
  • Claude 2 的訓(xùn)練數(shù)據(jù)包括 2022 年和 2023 年初更新的數(shù)據(jù)。這意味著它知道最近發(fā)生的事件,但它仍然可能會(huì)產(chǎn)生混淆。

該研究進(jìn)行了一系列評(píng)估實(shí)驗(yàn)來(lái)測(cè)試 Claude 2 的性能水平,包括對(duì)齊評(píng)估和能力評(píng)估兩部分。

在模型對(duì)齊方面,該研究針對(duì)大模型的三個(gè)關(guān)鍵要求做了具體評(píng)估,包括:遵循指令、生成內(nèi)容有用(helpfulness);生成內(nèi)容無(wú)害(harmlessness);生成內(nèi)容準(zhǔn)確、真實(shí)(honesty)。

人類反饋評(píng)估

大模型在生成過(guò)程中應(yīng)該遵循人類提供的指令,這將讓生成結(jié)果符合要求、實(shí)際有用。針對(duì)這一點(diǎn),該研究對(duì) Claude 2、Claude 1.3 和 Claude Instant 1.1 進(jìn)行了實(shí)驗(yàn)評(píng)估,并使用經(jīng)典的對(duì)弈水平評(píng)估指標(biāo) ——Elo 分?jǐn)?shù),幾個(gè)模型的評(píng)估結(jié)果如下圖 1 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

偏見(jiàn)評(píng)估

Bias Benchmark for QA(BBQ)是用于評(píng)估模型對(duì)人群偏見(jiàn)的常用基準(zhǔn)。該研究在 BBQ 基準(zhǔn)上進(jìn)行實(shí)驗(yàn)評(píng)估,幾種模型的實(shí)驗(yàn)結(jié)果如下圖 2 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

下圖 3 顯示了在消除歧義的語(yǔ)境下幾種模型回答 BBQ 基準(zhǔn)中問(wèn)題的準(zhǔn)確性。值得注意的是,Claude 模型的準(zhǔn)確率會(huì)比 Helpful-Only 模型低是因?yàn)槟P蜁?huì)拒絕回答一些存在偏見(jiàn)的問(wèn)題。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

事實(shí)性評(píng)估

大模型有時(shí)會(huì)生成虛假混亂的信息,因此測(cè)試模型生成內(nèi)容的事實(shí)性非常重要。TruthfulQA 是一個(gè)用于評(píng)估語(yǔ)言模型在對(duì)抗性環(huán)境中輸出的準(zhǔn)確性和真實(shí)性的基準(zhǔn),幾種模型的測(cè)試結(jié)果如下圖 4 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

總的來(lái)說(shuō),Claude 2 在 HHH(在有用性(helpfulness)、無(wú)害性(harmlessness)、事實(shí)性(honesty)、)評(píng)估上的總體表現(xiàn)如下圖 6 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

在能力評(píng)估方面,該研究針對(duì)多語(yǔ)言翻譯任務(wù)、上下文窗口、標(biāo)準(zhǔn)基準(zhǔn)評(píng)估、資格水平考試幾個(gè)方面對(duì) Claude 2 展開(kāi)評(píng)估實(shí)驗(yàn)

多語(yǔ)言翻譯

該研究選擇涵蓋 200 多種語(yǔ)言的翻譯基準(zhǔn) Flores 200 來(lái)評(píng)估 Claude 2 的多語(yǔ)言翻譯能力,其中包括低資源語(yǔ)言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的評(píng)估結(jié)果如下圖 7 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

上下文窗口

今年早些時(shí)候,研究團(tuán)隊(duì)將 Claude 的上下文窗口從 9K token 擴(kuò)展到了 100K token,現(xiàn)在 Claude 2 進(jìn)一步擴(kuò)展了上下文窗口, 達(dá)到 200K token,相當(dāng)于約 150000 個(gè)單詞。

為了證明 Claude 2 會(huì)實(shí)際使用完整的上下文,該研究測(cè)量了每個(gè) token 位置的損失,平均超過(guò) 1000 個(gè)長(zhǎng)文檔,如下圖 8 所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

不過(guò),研究團(tuán)隊(duì)表示目前發(fā)布的版本僅支持 100K token 的上下文窗口,完整的上下文窗口將會(huì)集成到他們的產(chǎn)品中。

標(biāo)準(zhǔn)基準(zhǔn)評(píng)估

該研究在幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)上評(píng)估測(cè)試了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函數(shù)合成的 Codex HumanEval、用于解決小學(xué)數(shù)學(xué)問(wèn)題的 GSM8k、用于多學(xué)科問(wèn)答的 MMLU、針對(duì)長(zhǎng)故事問(wèn)答的 QuALITY、用于科學(xué)問(wèn)題的 ARC-Challenge、用于閱讀理解的 TriviaQA 和用于中學(xué)水平閱讀理解與推理的 RACE-H,具體的評(píng)估結(jié)果如下表所示:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

值得注意的是,Claude 2 生成代碼的能力有了明顯的提升,在 Codex HumanEval 上的得分從 56% 上升到 71.2%。

資格水平考試

該研究還用幾個(gè)常見(jiàn)資格水平考試的題目測(cè)試了 Claude 2 的實(shí)際能力。

首先,Claude 2 在美國(guó)律師資格考試(Bar Exam)的多項(xiàng)選擇題測(cè)試中得分率為 76.5%,高于 Claude 1.3 的 73.0%。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

其次,研究團(tuán)隊(duì)還用美國(guó)研究生入學(xué)考試(GRE)測(cè)試了 Claude 2 的能力水平,Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%,在定量推理方面與達(dá)到了參加 GRE 考試的考生的中位數(shù)水平。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

最后,該研究還在美國(guó)醫(yī)師執(zhí)照考試(USMLE)題目上測(cè)試了 Claude 2:

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

Anthropic 表示,人工智能寫作平臺(tái) Jasper 和代碼導(dǎo)航工具 Sourcegraph 等公司已開(kāi)始將 Claude 2 納入其運(yùn)營(yíng)中。

官方示例及試用體驗(yàn)

我們先看 Anthropic 提供的一些官方示例。

1、編碼能力:為靜態(tài)地圖添加交互式數(shù)據(jù)。

2、文本處理能力:總結(jié)文檔、輸出表格。這里 Claude 2 用上了 100K token 文本處理功能,可以在 prompt 窗口上傳幾百頁(yè)的文檔。

除了以上,機(jī)器之心也嘗試了一些文本分析、數(shù)學(xué)推理和編寫代碼方面的示例。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

試用地址:http://claude.ai

首先讓 Claude 2 以目錄形式總結(jié)一下「Claude 2 技術(shù)文檔」的要點(diǎn),總結(jié)得非常詳細(xì),對(duì)我們寫這篇文章有幫助。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

再來(lái)兩道數(shù)學(xué)推理題,Claude 2 只用一次就能搞定

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

最后測(cè)一些代碼題,生成、檢查和補(bǔ)全代碼都不在話下。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

不過(guò),Claude 2 仍不具備生成圖片的多模態(tài)能力。

ChatGPT最強(qiáng)競(jìng)品Claude2來(lái)了:代碼、GRE成績(jī)超越GPT-4,免費(fèi)可用(gre l2tp)

參考鏈接:

https://www.anthropic.com/index/claude-2

https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

https://arstechnica.com/information-technology/2023/07/new-chatgpt-rival-claude-2-launches-for-open-beta-testing/

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁(yè)
返回頂部
绥江县| 纳雍县| 班玛县| 靖边县| 濮阳市| 大渡口区| 柳河县| 瑞丽市| 江川县| 丰原市| 齐齐哈尔市| 宜宾市| 昭觉县| 新丰县| 广汉市| 旬阳县| 济阳县| 建德市| 沛县| 昆山市| 西宁市| 宜君县| 普兰县| 原阳县| 南安市| 颍上县| 磐安县| 霍林郭勒市| 依兰县| 介休市| 高陵县| 肥西县| 汉沽区| 灵台县| 霍林郭勒市| 阜康市| 孝昌县| 旌德县| 离岛区| 嘉鱼县| 玛曲县|