日本电影一区二区_日本va欧美va精品发布_日本黄h兄妹h动漫一区二区三区_日本欧美黄色

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

豐色 衡宇 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

從科技圈最新動(dòng)態(tài)來(lái)看,最近AI代碼生成概念實(shí)火。

可是,小伙伴們有沒有感覺,AI刷程序題比較亮眼,到了企業(yè)真實(shí)開發(fā)場(chǎng)景中,總感覺欠點(diǎn)火候?

恰在此時(shí),一位低調(diào)的資深大玩家aiXcoder出手了,放出大招:

它就是全新開源的代碼大模型——aiXcoder-7B Base版,一個(gè)專門適合在企業(yè)軟件開發(fā)場(chǎng)景中部署的代碼大模型。

等等,一個(gè)“僅”70億參數(shù)的代碼大模型,能展現(xiàn)出什么樣的AI編程水平?

先看看在HumanEval、MBPP和MultiPL-E三大主流評(píng)測(cè)集上的表現(xiàn),它平均得分居然超過(guò)340億參數(shù)的Codellama。

要知道,后者來(lái)自Meta、基于Llama2,可是開源界最先進(jìn)的AI編程大模型之作。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

沒完,這個(gè)模型不僅打敗了一眾開源大模型、成為百億級(jí)代碼大模型中最強(qiáng),還有特別的優(yōu)勢(shì):

一改傳統(tǒng)的“刷題式”代碼生成,它專門針對(duì)企業(yè)級(jí)軟件項(xiàng)目,在真實(shí)開發(fā)場(chǎng)景下效果最好——代碼生成補(bǔ)全能力、和跨文件能力經(jīng)過(guò)測(cè)試,都是“杠杠滴”(No.1)。

言外之意,aiXcoder-7B不玩“虛”的,可以hold得住企業(yè)真實(shí)業(yè)務(wù)場(chǎng)景。

例如在貼近真實(shí)開發(fā)場(chǎng)景的評(píng)測(cè)集CrossCodeEval上,aiXcoder-7B一舉拿下了同級(jí)別模型的最好效果:

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

百億級(jí)參數(shù)最強(qiáng)代碼大模型

先來(lái)看大模型。

此次發(fā)布并開源的是aiXcoder-7B Base版(相應(yīng)Instruct版后續(xù)也將發(fā)布),它讓人最感到驚喜的就是:

除了代碼生成能力SOTA——不僅拿下主流測(cè)評(píng)集中的各種算法題,更重要的,在與企業(yè)真實(shí)開發(fā)場(chǎng)景一致的多文件復(fù)雜代碼場(chǎng)景中,aiXcoder-7B在同量級(jí)參數(shù)模型中表現(xiàn)更加亮眼!

要知道,AI編程工具當(dāng)前最實(shí)用的能力就是生成和補(bǔ)全,包括直接生成完整的方法塊、條件判斷塊、循環(huán)處理塊、異常捕捉塊等多種情況。

而在真實(shí)開發(fā)場(chǎng)景中,我們特別需要它對(duì)整個(gè)開發(fā)項(xiàng)目中的各種關(guān)聯(lián)文件進(jìn)行理解,然后再生成。

測(cè)試顯示,aiXcoder-7B Base版結(jié)合單文件上下文的代碼補(bǔ)全能力超越StarCoder2、CodeLlama等一眾模型,在Python、JS和Java語(yǔ)言上綜合得分最高。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

這是在SantaCoder測(cè)評(píng)集上的結(jié)果。還不過(guò)癮,aiXcoder團(tuán)隊(duì)還提出了一個(gè)更大的測(cè)評(píng)代碼生成補(bǔ)全數(shù)據(jù)集(16000多條來(lái)自真實(shí)開發(fā)場(chǎng)景的數(shù)據(jù)),做了進(jìn)一步測(cè)評(píng),效果更明顯。

今天,該測(cè)評(píng)集也與模型一同開源,歡迎大家前來(lái)挑戰(zhàn)~

值得一提的是,團(tuán)隊(duì)還特別向我們開了一個(gè)“彩蛋”,那就是aiXcoder-7B Base版在補(bǔ)全時(shí)更傾向于用較短的代碼來(lái)完成任務(wù),有一種天生的“簡(jiǎn)潔美”。

其好處不言而喻:程序員更容易理解、Bug也更好檢查。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

易私有化部署、個(gè)性化定制

這么好的代碼大模型,為什么要開源呢?

aiXcoder團(tuán)隊(duì)表示,幫助更多的開發(fā)者減輕工作負(fù)擔(dān),是他們的愿望!

這次,之所以開源7B的項(xiàng)目級(jí)代碼大模型,主打就是“方便企業(yè)開發(fā)者使用”。

可以用三個(gè)“易”來(lái)總結(jié)它的特點(diǎn):

首先, 易部署。

代碼數(shù)據(jù),都是企業(yè)私有的核心知識(shí)產(chǎn)權(quán)。因此,私有化部署和學(xué)習(xí)是不可避免的,而且,通常企業(yè)的部署資源是又是有限的。

aiXcoder-7B Base版只有7B參數(shù)規(guī)模,十分輕便,易于部署,進(jìn)而還有成本低、性能好的優(yōu)點(diǎn)。

第二點(diǎn),易定制。

很多企業(yè)都有自己的軟件開發(fā)框架和API的庫(kù),與其關(guān)聯(lián)的業(yè)務(wù)邏輯、代碼架構(gòu)規(guī)范都因地制宜,十分個(gè)性化。同時(shí),這些內(nèi)容又都有私密性。

必須得讓大模型學(xué)會(huì)這些企業(yè)代碼資產(chǎn),通過(guò)進(jìn)行有效個(gè)性化訓(xùn)練,才能真正為企業(yè)所用。

aiXcoder-7B Base版就具有這樣易定制的特性。

再者,易組合。

aiXcoder團(tuán)隊(duì)透露 ,未來(lái)提供企業(yè)服務(wù)時(shí),可以讓多個(gè)7B模型形成MoE架構(gòu),組合成為一套解決方案來(lái)完成企業(yè)定制化服務(wù)。

不同的企業(yè),都可以得到符合自身個(gè)性化需求的MoE版代碼大模型解決方案。

據(jù)了解,aiXcoder-7B Base版走開源路線,后續(xù)將聚焦B端市場(chǎng),推出企業(yè)版本。

通過(guò)這種方式,aiXcoder通過(guò)持續(xù)為企業(yè)級(jí)用戶提供精準(zhǔn)、高效、連續(xù)的軟件開發(fā)服務(wù),幫助他們不斷提高項(xiàng)目的開發(fā)效率和代碼質(zhì)量。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

例如,正在進(jìn)行數(shù)智化轉(zhuǎn)型的某行業(yè)頭部券商就采用了aiXcoder的大模型解決方案,在本地環(huán)境私有化部署代碼大模型,且采用了模型的靈活調(diào)整方式,使智能開發(fā)系統(tǒng)與使用團(tuán)隊(duì)規(guī)模保持同步。

這種部署方式既確保了既有算力可支持,避免了因硬件門檻過(guò)高而帶來(lái)的挑戰(zhàn);又能滿足企業(yè)日常的編碼需求。

現(xiàn)有落地?cái)?shù)據(jù)反饋顯示,結(jié)合該企業(yè)自身領(lǐng)域知識(shí)進(jìn)行個(gè)性化訓(xùn)練后,在業(yè)務(wù)邏輯代碼上,代碼生成占比,較之前提升2倍。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

看完了成績(jī),模型實(shí)際效果究竟怎么樣?接下來(lái)就來(lái)幾個(gè)demo給大家感受一下。

首先,aiXcoder-7B Base版能理解更多、更復(fù)雜的代碼上下文信息,進(jìn)行代碼生成和補(bǔ)全:模型預(yù)訓(xùn)練支持的上下文長(zhǎng)度為32k,推理階段擴(kuò)展則可達(dá)256k。

如下圖所示,當(dāng)我們用多個(gè)工具函數(shù)拼成了1500多行的代碼,在文件末端注釋要模型接入時(shí),它可以準(zhǔn)確識(shí)別到文件頂部的相關(guān)函數(shù),結(jié)合該函數(shù)信息補(bǔ)全相關(guān)方法。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

其次,在企業(yè)開發(fā)場(chǎng)景中,更重要的是跨文件分析的能力,它可以從多個(gè)代碼文件中自動(dòng)識(shí)別并提取所需。

如下圖所示,我們需要在樹結(jié)構(gòu)上應(yīng)用動(dòng)態(tài)規(guī)劃來(lái)實(shí)現(xiàn)編輯距離搜索,讓模型補(bǔ)全樹結(jié)構(gòu)上目錄節(jié)點(diǎn)的動(dòng)態(tài)規(guī)劃狀態(tài)類。

模型準(zhǔn)確識(shí)別到了編輯距離的計(jì)算與另一個(gè)文件中滾動(dòng)數(shù)組內(nèi)部取最小值的計(jì)算之間的關(guān)系,從而結(jié)合非當(dāng)前的兩個(gè)文件給出了正確的預(yù)測(cè)結(jié)果。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

以上都還沒完,aiXcoder-7B Base版的補(bǔ)全還是相當(dāng)智能化的。

例如當(dāng)用戶的采納情況發(fā)生調(diào)整時(shí),它會(huì)根據(jù)當(dāng)下的采納情況自動(dòng)調(diào)整補(bǔ)全長(zhǎng)度。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

同時(shí),作為一個(gè)補(bǔ)全代碼專家,它還能根據(jù)用戶輸入的流暢性(即停頓時(shí)間)來(lái)判斷用戶當(dāng)前是否需要補(bǔ)全,并不隨意觸發(fā)功能打斷咱的工作狀態(tài)。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

不得不說(shuō):真香啊。

而廣大程序員們真正需要的,正是aiXcoder這樣不僅懂通用代碼,還能懂“我們企業(yè)”代碼的AI編程工具。

那么,如此接地氣的模型,究竟是如何煉成的?

團(tuán)隊(duì)介紹,該模型屬于全自研,首先是訓(xùn)練數(shù)據(jù)

一共包括1.2T Unique Tokens,在7B參數(shù)級(jí)模型中,訓(xùn)練數(shù)據(jù)量算是非常大的了。

不光“量勝”,團(tuán)隊(duì)也在這些數(shù)據(jù)上取得了“質(zhì)勝”:他們耗費(fèi)大量時(shí)間針對(duì)數(shù)十種主流語(yǔ)言做了語(yǔ)法分析過(guò)濾,以及靜態(tài)分析排除掉了163種Bug和197種缺陷。

其次是針對(duì)性的訓(xùn)練方法,團(tuán)隊(duì)專門針對(duì)真實(shí)環(huán)境中的項(xiàng)目級(jí)代碼進(jìn)行了代碼結(jié)構(gòu)化語(yǔ)義訓(xùn)練,充分保證模型效果。

最后就是在訓(xùn)練過(guò)程中一開始就充分考慮了多文件的處理問(wèn)題,通過(guò)結(jié)合聚類、代碼Calling Graph等方式構(gòu)建了多文件之間的相互注意力關(guān)系。

最終,更適用于真實(shí)開發(fā)場(chǎng)景的aiXcoder-7B Base版得以誕生。

aiXcoder背后的團(tuán)隊(duì)

再扒扒這個(gè)模型背后的玩家,我們發(fā)現(xiàn)來(lái)歷也不簡(jiǎn)單:

首先,aiXcoder團(tuán)隊(duì)由北京大學(xué)軟件工程研究所孵化,從2013年起開始搞代碼生成,國(guó)際上最早的基于深度學(xué)習(xí)的代碼生成論文就出自于他們;

其次,十年來(lái),團(tuán)隊(duì)在NeurIPS、ACL、IJCAI、ICSE、FSE、ASE等頂會(huì)上發(fā)表相關(guān)論文100余篇,多篇論文被國(guó)際學(xué)者認(rèn)為是“首創(chuàng)成果”并被廣泛引用,多次獲ACM杰出論文獎(jiǎng)。

可謂要實(shí)力有實(shí)力,要成績(jī)也有成績(jī)。

北大開源最強(qiáng)aiXcoder-7B代碼大模型!專為企業(yè)私有部署設(shè)計(jì)

2017年,aiXcoder最開始的雛形——aiXcoder1.0發(fā)布,提供代碼自動(dòng)補(bǔ)全與搜索功能。

2021年4月,團(tuán)隊(duì)推出完全自主知識(shí)產(chǎn)權(quán)的十億級(jí)參數(shù)代碼大模型aiXcoder L版,支持代碼補(bǔ)全和自然語(yǔ)言推薦。這也是國(guó)內(nèi)?個(gè)基于“?模型”的智能編程商?產(chǎn)品。

而后,團(tuán)隊(duì)持續(xù)攻堅(jiān),2022年6月再次推出了國(guó)內(nèi)首個(gè)支持方法級(jí)代碼生成的百億級(jí)參數(shù)量模型aiXcoder XL版,同樣具有完全自主知識(shí)產(chǎn)權(quán)。

2023年7月,aiXcoder團(tuán)隊(duì)推出聚焦企業(yè)適配的aiXcoder Europa,具有代碼自動(dòng)補(bǔ)全、代碼自動(dòng)生成、代碼缺陷檢測(cè)與修復(fù)、單元測(cè)試自動(dòng)生成等功能。

據(jù)了解,aiXcoder Europa可根據(jù)企業(yè)數(shù)據(jù)安全和算力要求,為企業(yè)提供私有化部署和個(gè)性化訓(xùn)練服務(wù),有效降低代碼大模型的應(yīng)用成本,提升研發(fā)效率。

直到今日,aiXcoder-7B Base版誕生。

在科技的璀璨星河中,每一次技術(shù)的突破都如同新星的誕生,照亮了未來(lái)的無(wú)限可能。

隨著代碼大模型的能力日益增強(qiáng),它們?cè)诮鉀Q復(fù)雜編程問(wèn)題上的卓越表現(xiàn),不僅在提高軟件開發(fā)的效率和質(zhì)量上發(fā)揮著重要作用,在推動(dòng)編程自動(dòng)化的浪潮中扮演著關(guān)鍵角色,更激發(fā)了程序員們的創(chuàng)新潛能,讓他們能夠?qū)⒏嗟木ν度氲教剿骱蛣?chuàng)造中。

換句話說(shuō),aiXcoder-7B這款前沿的代碼大模型,不僅加速了軟件開發(fā)自動(dòng)化的進(jìn)程,更在重塑技術(shù)行業(yè)的生態(tài),引領(lǐng)著未來(lái)發(fā)展的趨勢(shì):

加快實(shí)現(xiàn)軟件開發(fā)自動(dòng)化。

這既是行業(yè)大勢(shì)所趨,更是發(fā)展的必然選擇。

榮幸的是,我們正站在這個(gè)轉(zhuǎn)折點(diǎn)面前,見證著這一趨勢(shì)的興起和實(shí)現(xiàn)。

aiXcoder開源鏈接
https://github.com/aixcoder-plugin/aiXcoder-7B
https://gitee.com/aixcoder-model/aixcoder-7b
https://www.gitlink.org.cn/aixcoder/aixcoder-7b-model

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁(yè)
返回頂部
南木林县| 安龙县| 东方市| 莱西市| 新昌县| 台前县| 廊坊市| 犍为县| 新平| 汽车| 庐江县| 桃源县| 海南省| 柳州市| 鄯善县| 孟村| 壶关县| 庆安县| 井冈山市| 莒南县| 仙居县| 崇礼县| 科技| 丰都县| 丘北县| 保山市| 江安县| 夹江县| 靖宇县| 多伦县| 灯塔市| 东山县| 陆川县| 常山县| 安宁市| 晴隆县| 元阳县| 高邮市| 化隆| 北辰区| 邯郸县|