採訪關於「kode-AI Translation Cloud API」機器學習和評估的負責人! (第二部分)

關於高電舍開發辦公室「kode-AI Translation Cloud API」日英評價博客負責人的採訪!
本文是上一篇文章的第二部分。
3. 評估結果 ~ 什麼是 BLEU 值? ~
Satake:在對 10,000 條數據進行機器學習之前和之後,另外 1,000 條不是直接機器學習的數據提高了翻譯準確性!
而判斷這 1000 個英文譯本品質與否的標準是,它們首先是手工翻譯的!
柴田:是的,沒錯。 順便說一句,佐竹先生,您知道上面提到的「BLEU 值」是什麼嗎?
佐竹:你是說用機制評估的值嗎?
Shibata:用於評估的 1,000 個英文數據(不用於訓練)與最初由人工翻譯的 10,000 個數據有多接近?
“BLEU 值”是對相似性的機械評估。
這是由機器評估的分數,表示人工翻譯的翻譯與自動翻譯結果之間的相似性的百分比。
佐竹:哇~我完美地學到了“BLEU value”!
柴田:訓練前和學習后結果的機器評估(BLEU 值)結果如下。
[學習前] 27.80 ⇒[學習后] 54.49
Satake:通過訓練 10,000 條數據,你可以看到用於評估的 1,000 條數據幾乎翻了一番!
柴田:是的。 人工評估的結果如下。
[學習前的平均值] 54.0⇒[學習后的平均值] 71.4
(*評估標準:滿分 6 分,滿分 100 分,重點關注翻譯內容是否能理解)
佐竹:大約提高了 30%! 可以看出,人們在評價學習時是有影響的。
可以說,讓機器學習本身是有意義的! 在這次嘗試中,您遇到了哪些困難?
4. 討論
柴田:是的,我認為以均衡的方式選擇要測試的數據很重要。
例如,在 10,000 個項目的數據中,有很多數據句型相同,但只有數據中的專有名詞略有不同。
從中提取 1,000 條數據時,如果只收集內容相似的數據,則沒有必要進行實驗。
這就是為什麼很難先將相似的日語句子歸為一組並平衡地選擇它們。
佐竹:還有用自己的眼睛做選擇的過程,所以我覺得這需要很大的耐心和時間。
根據這些結果,您將來是否進行了任何改進?
柴田:BLEU 值是衡量結果翻譯和參考翻譯之間相似度的指標,它顯著增加,所以我認為可以說學習的效果非常高。
在人工評估中,通常評估內容是可以理解的,除了專有名詞的誤譯。
專有名詞的誤譯可以通過使用 dictionary 功能覆蓋它們來進一步改善。
事實上,當我後來在字典中註冊它時,翻譯的複製率盡可能接近 100%!
佐竹: 關鍵是要提前使用車站名稱等專有名詞的字典註冊功能!
柴田:至於其他改進,我想在未來使用更多的數據進行實驗。
事實上,這次的10000個案例的數量對於用於機器學習的數據量來說很小。
我認為,如果你嘗試更多的數據,你可以期待更高的學習成果!
佐竹:從這項研究的結果來看,可以說學習的效果非常高,所以我很期待未來的嘗試。
在什麼情況下可以預期實際作?
柴田:我覺得它可以用作車站和火車的多語言廣播文本,以及百貨公司的室內廣播。 如果你積累了雙語數據,並且已經大致形成了一個不包括專有名詞的部分的模式,你可以將其投入實際使用。 最重要的是,無需從頭開始手動翻譯,這有助於降低成本和時間。
佐竹:我們與柴田先生討論了神經引擎的機器學習評估,預計未來會越來越多地提高翻譯準確性! 柴田先生,非常感謝您今天抽出時間接受採訪!
柴田:非常感謝。
佐竹:與開發辦公室的訪談,下次會是什麼樣的開發者呢?
我迫不♪及待地想聽到一些有趣的故事!