提質(zhì)增效,AI賦能工業(yè)企業(yè)軟件開發(fā)創(chuàng)新(關(guān)于促進軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的專項政策措施)
2024年5月16日,華為混合云研發(fā)生產(chǎn)線總監(jiān)趙子武在華為AI 制造行業(yè)峰會上發(fā)表《提質(zhì)增效,AI賦能軟件開發(fā)創(chuàng)新》主題演講,詳細介紹基于華為云Stack的CodeArts軟件開發(fā)生產(chǎn)線,基于華為多年研發(fā)最佳實踐和工具,覆蓋軟件開發(fā)全生命周期服務。
華為混合云研發(fā)生產(chǎn)線總監(jiān)趙子武
2024年,基于華為云Stack混合云的CodeArts迎來全新升級,新增盤古研發(fā)大模型加持下的CodeArts Snap智能開發(fā)助手,提供代碼生成、研發(fā)知識問答、單元測試、代碼解釋、代碼注釋、代碼調(diào)試、代碼翻譯和代碼檢查等核心八大特性,幫助開發(fā)者端到端提升研發(fā)效率超過20%。
會上,趙子武詳細介紹了CodeArts Snap智能開發(fā)助手的3大關(guān)鍵競爭力:
CodeArts Snap關(guān)鍵競爭力一:構(gòu)建精品研發(fā)訓練數(shù)據(jù),塑造天生高質(zhì)量模型
華為云Stack構(gòu)建一整套開發(fā)工具鏈、基本法和自動化平臺,基于1.5萬億開源研發(fā)數(shù)據(jù)以及華為各產(chǎn)品線代碼,精心篩選出了500億Token精品研發(fā)數(shù)據(jù)。
基本法包含三個內(nèi)容:第一個模型的語料質(zhì)量,只有進行清晰高質(zhì)量的問題,大量正確的背景知識,以及能夠明確的表達出自己的要求,最后輸出來的結(jié)果才可能是對的。第二個就是清洗出來的數(shù)據(jù)是高質(zhì)量的,清洗的過程是有序的,數(shù)據(jù)是有保障的。第三是評測基本法,訓練出來的代碼生成模型,要有清晰的評價標準,要有一套比較中立的,比較專業(yè)的一種方法去評測,而不是靠主觀來評價。
有了基本法之后,CodeArts Snap也建立了兩個自動化的工具平臺,一個是自動化的數(shù)據(jù)清洗平臺,一個是自動化的模型評測平臺,支撐持續(xù)高效運營,保證模型訓練持續(xù)優(yōu)化。
CodeArts Snap關(guān)鍵競爭力二:強化訓練 評價反饋,模型“越用越聰明”
好的評估機制可以對模型進行強化學習,基于這套強化學習的邏輯,讓研發(fā)大模型的代碼生成能力更強。采用內(nèi)外循環(huán)的方式來迭代優(yōu)化我們的訓練數(shù)據(jù),從而讓這個模型越訓練越聰明。
外循環(huán)是指用戶使用的時候,系統(tǒng)會收到用戶評價和反饋,比如是否接受完全結(jié)果,還是不接受或者部分接受。將這些數(shù)據(jù)集注入到到下一輪的訓練迭代,從而極大提到訓練結(jié)果的準確度。
內(nèi)循環(huán)是會構(gòu)建自動化測試和評估的工具,不斷自動評測和強化學習。
CodeArts Snap關(guān)鍵競爭力三:自動補充背景信息,模型“越聽越明白”
大模型能否很好的輸出想要的結(jié)果的前提是能聽得明白,用戶的問題是基于自然語言的認知提出來的。CodeArts Snap有大量的可以使用的已知API調(diào)用,基于豐富的知識庫可以查找類似的實現(xiàn)、相關(guān)的數(shù)據(jù)庫表結(jié)構(gòu)、相關(guān)的類以及工程的上下文內(nèi)容,自動補充相關(guān)背景信息。此外傳遞大模型的信息是非常復雜和豐富的,包含各個步驟,需求描述,數(shù)據(jù)庫表,三方件的接口,使用的框架,從歷史的項目切片中拿出類似代碼,這時大模型就得到了一個充分的知識輸入,他會把最終結(jié)果給出。這樣他聽得越明白,推理的結(jié)果越準確。
華為云Stack CodeArts Snap智能開發(fā)助手不僅提升了研發(fā)效率,更為開發(fā)者提供了一個全新的工作模式愿,為更多工業(yè)企業(yè)開啟智能研發(fā)的新篇章,共創(chuàng)美好的數(shù)字化未來。
關(guān)注@華為云,了解更多資訊