
專注於特定領域
高精度 AI 翻譯
我想發展
多語言聊天機器人
精度
我想提升
在對話和問答環節中
我想預測會說什麼
以東南亞國家的語言
回應
雙語語料庫
尋找
適用於行業和專業化
專業
術語詞典
我想製作
自 1980 年代以來,我們一直在開發機器翻譯。
我們在向大型公司提供雙語語料庫方面擁有豐富的經驗。
憑藉多年的經驗和專業知識,我們為解決問題做出貢獻
我們提供多語言語料庫。
旅遊、醫療、法律、金融、智慧財產權等
我們在各個領域都有雙語語料庫。
互動新聞發佈會、問答環節等。
還提供雙語語料庫。
我們可以提供超過 100 萬對雙語語料庫!
您正在使用的 CAT 工具
它也可以用作翻譯記憶庫。
除了從日語翻譯成英語的數據外,
從英語到東南亞和稀有語言
我們有一個翻譯的雙語語料庫。
雙語語料庫基於每種語言的母語消費者。
因為它是翻譯的,所以每種語言都是獨一無二的。
細微差別和陳詞濫調被反映出來。
除了欄位和數據類型之外,源和目標
由於它包括平移方向進行管理,
可以提取所需的雙語語料庫。
我們還可以創建多語言術語詞典。
我們為每個行業提供了各種預防措施,以確保在工廠和工作場所的安全工作。
我們涵蓋廣泛的領域,從農業、林業和漁業等第一產業到經濟、金融、IT 和核能的報告。
我們準備了外國人進入日本和在日本生活所需的多語言數據,例如與移民和在留資格以及體檢相關的法律。
一家大型電信公司的研究部門
/廣播公司研究院
/AI 機器翻譯引擎開發公司
等
在機器翻譯和多語言生成式 AI 的開發和調整中,對雙語語料庫的需求正在增加。 此外,當翻譯人員開始在新領域進行翻譯時,如果保持內部積累的翻譯記憶庫,翻譯工作的效率將大大提高。 另一方面,自己收集系統的雙語語料庫並不容易,從外部獲取數據並專注於開發所需的可交付成果和翻譯工作是有效的。
以下六點對於選擇雙語語料庫很重要。
1) 語言組合
2) 欄位
3) 品質
4) 數量
5) 資料類型
6) 上下文的存在與否
1) 中的「語言組合」是指翻譯人員要翻譯的語言對或機器翻譯開發中要培訓的語言對是日語和英語還是日語和中文。 同樣,在註冊您使用的CAT工具的翻譯記憶庫時,“語言組合”是最重要的因素。 此外,如果您正在尋找更自然的表達方式,瞭解哪種語言是源文本也很重要。 舉個具體的例子,即使你說 「日英雙語語料庫」,很自然地會感覺到英語表達的流利度和將日文原文翻譯成英文的翻譯背景存在差異。
2) 中的「領域」是指旅遊、醫學、法律、經濟、科學和技術等領域。 改進領域的數據機器學習將導致加速發展。 在構建語言模型以提高特定領域機器翻譯的準確性時,效果的標準約為 100,000 對。 不言而喻,即使從雙語語料庫創建技術詞典,該字段也很重要。 在我們的示例中,當我們以旅遊導向型國家的名義專注於入境支援時,日本所需的領域是旅遊領域,並且需要醫療領域的雙語語料庫來加強對外國遊客和在日本居民的醫療保健。 此外,多年來,需求已經轉移到商業領域,包括用於演示和解釋業務內容的演示材料,以及在會議和活動中發表演講的錄音,然後進行問答。
換句話說,3) 的「品質」是指準確性,並取決於創建雙語語料庫的方法。 數據最好是人工翻譯,如果用機器翻譯,沒有經過人眼檢查或糾正,品質自然會變差。 此外,即使是手動翻譯的雙語數據,一個原文也可能有兩個或多個翻譯,如果原文和譯文必須對應在一個句子中,品質會受到影響。 此外,如果翻譯過於簡短,則不是一個好的雙語語料庫。
例如,如果在內部翻譯支援工具中註冊翻譯記憶庫或單詞詞典的目的是在特定領域進行數萬對雙語翻譯,那麼 4) 中的“數量”可以說對翻譯人員來說是一個足夠有用的數量。 在特定領域進行機器學習時,例如在開發機器翻譯引擎時,據說 100,000 對會產生一定的效果。 另一方面,據說開發一個通用機器翻譯引擎需要數千萬對。 因此,所需的雙語語料庫數量因應用程式而異。
5) 中的「數據類型」表示創建雙語語料庫的文件是報告、白皮書、演示文稿、新聞發佈會、問答環節等。 如果您想機器學習書面語言,使用報告和白皮書更有效,如果您想機器學習口語,使用由演示文稿、新聞發佈會和問答環節創建的雙語語料庫更有效。 在我們的雙語語料庫中,屬性得到了精細管理,因此可以按數據類型提取雙語語料庫。
6) 中的「上下文的存在與否」是指多個句子之間是否存在語義聯繫。 具體來說,詞典中的例句只需要包含一個特定的詞條,它們與其他例句之間沒有上下文。 因此,判斷沒有上下文。 另一方面,報告是「上下文相關的」,因為它由描述事件或事件的多個句子組成。 同樣,新聞發佈會和問答環節可以說是有“背景”的,因為多個演講者輪流相互交談。 為了使用聊天機器人(而不僅僅是機器翻譯)生成更準確的答案,現在比以往任何時候都更需要在用於機器學習的雙語語料庫中擁有“上下文”。
總結
在選擇雙語語料庫時,根據應用需要考慮上述 1) 至 6)。 尤其是在為特定域執行機器學習時,重要的是要考慮對品質、數據類型和上下文的需求。 要獲得適合您的產品,請先查看我們的免費樣本數據。