採訪關於「kode-AI Translation Cloud API」機器學習和評估的負責人! (第一部分)

大家好! 距離 (;^ω^) Kodensha Development Office 博客已經很久了。
在這篇博客中,負責銷售的Satake通過夯實採訪了我們的開發人員,
以對話形式介紹各種開發和產品資訊。
這就是今天回答採訪的人!
我叫柴田先生,目前正在學習中文、韓語和俄語。
(您上次還回答了 ♪ My Interpreter Assist 的採訪。
佐竹: 你學會了三種語言,真是太棒了!
柴田:非常感謝,語言學習很有趣!
佐竹:這一次,我們將使用“kode-AI Translation Cloud API”,預計未來將用於車站和商業設施的多語言廣播。
請詳細介紹♪一下機器學習。
柴田:好的,謝謝。
1. 什麼是神經引擎機器學習?
Satake:首先,您能否簡要說明一下在這種情況下什麼是機器學習和評估?
Shibata:是的,這是一個由 10,000 個日語和英語句子的配對數據(雙語語料庫)組成的機器學習。
它通過與訓練前的數據進行比較來驗證學習效果,並測量神經引擎的機器學習結果。
(什麼是雙語語料庫? 如果是這樣,請查看此博客! )
Satake:有點難以想像機器學習是什麼......
柴田:機器學習就像“像這樣將這種日語翻譯成英語”
這是一種機械地記憶和學習的方式。
在一個簡單的地方,回應日語「請告訴我你的名字」,「我可以有你的名字嗎?這就像把它翻譯成。
當我們學習一門外語時,我們學習瞭如上所述與日語相對應的外語,它是一樣的。 輕柔地說,就是訓練。
佐竹: 原來如此~! 這很容易理解。 順便說一句,之前推出的“kode-AI Translation Cloud API”是
它與使用普通翻譯引擎的雲翻譯有什麼不同嗎?
柴田:使用 AI(人工智慧)的神經機器翻譯是“kode-AI 翻譯”。
特別是,它在將英語翻譯成日語方面→準確性高而享有盛譽。
按兩下此處瞭解有關「kode-AI Translation」的詳細資訊
佐竹: 哇~~。 由於它是世界上最高水準的 AI 翻譯,因此您可以期待翻譯的準確性!
接下來,您究竟使用什麼來評估所學成果?
2. 介紹評估機器學習結果的過程
Shibata:這一次,我們使用以下程序比較了機器學習數據和非訓練數據。
(1) 手動將 10,000 篇日語原文翻譯成英文,並創建 10,000 對日英雙語語料料庫
(2) 弘電子社持有的特定類別的日英雙語語料庫中的 (1) 中的 9,000 對 + 1,000 對
= 總共 10000 對用於機器學習
(3) (1) 中剩餘的 1000 對數據被排除在評估數據之外,不包含在機器學習數據中。
(4) 對 (3) 中的評估資料執行日英機器翻譯,機器學習前 (Before)
(5) 對 (2) 中的 10000 對數據執行機器學習
(6) 對 (3) 中的評估資料進行日英機器翻譯 機器學習後 (After)
(7) 分別對 (4) 和 (6) 的翻譯結果進行機械 (*) 評估
* 根據與 (1) 的英文翻譯的相似性進行評估(= BLEU 值)
(8) (4) 和 (6) 中的 100 個翻譯結果由翻譯人員手動評估(之前與之後)
佐竹: 好多步驟啊~! 和一點 (1) ~ (6)
這很困難,我不太理解。 (>_<)
現在,機器學習使翻譯準確性提高了多少?
我會在下一篇博客中宣佈我感興趣的結果~!