Warning: chmod(): Operation not permitted in /home/httpd/html/KODENSHA/mst3.0/index.php on line 175
銷售雙語語料庫 | 對於中韓翻譯和語音合成,Kodensha
支援構建開發和調整 AI 翻譯引擎和生成式 AI 所需的大型語言模型

AI 翻譯引擎和生成式 AI 的開發
調優所需
構建大型語言模型
我們隨時為您提供説明。

  • 超過 1,000,000 對
  • 提供10多種語言
  • 豐富的交付經驗
按兩下此處索取樣品。

AI 翻譯和問答
解決您的機器學習問題!

  • 我想開發專注於特定領域的高精度 AI 翻譯。

    專注於特定領域
    高精度 AI 翻譯
    我想發展

  • 我想提高多語言聊天機器人的準確性。

    多語言聊天機器人
    精度
    我想提升

  • 我想預測在對話或問答環節中會說什麼

    在對話和問答環節中
    我想預測會說什麼

  • 我正在尋找東南亞國家語言的雙語語料庫

    以東南亞國家的語言
    回應
    雙語語料庫
    尋找

  • 我想創建一個專門針對某個行業或專業領域的術語表。

    適用於行業和專業化
    專業
    術語詞典
    我想製作

高電舍的六大優勢

  • 超過 40 年的經驗

    超過 40 年的經驗

    自 1980 年代以來,我們一直在開發機器翻譯。
    我們在向大型公司提供雙語語料庫方面擁有豐富的經驗。
    憑藉多年的經驗和專業知識,我們為解決問題做出貢獻
    我們提供多語言語料庫。

  • 擅長專業領域

    擅長專業領域

    旅遊、醫療、法律、金融、智慧財產權等
    我們在各個領域都有雙語語料庫。
    互動新聞發佈會、問答環節等。
    還提供雙語語料庫。

  • 超過 1,000,000 對

    超過 1,000,000 對

    我們可以提供超過 100 萬對雙語語料庫!
    您正在使用的 CAT 工具
    它也可以用作翻譯記憶庫。

  • 稀有語言

    稀有語言

    除了從日語翻譯成英語的數據外,
    從英語到東南亞和稀有語言
    我們有一個翻譯的雙語語料庫。

  • 自然表達

    自然表達

    雙語語料庫基於每種語言的母語消費者。
    因為它是翻譯的,所以每種語言都是獨一無二的。
    細微差別和陳詞濫調被反映出來。

  • 半訂單

    半訂單

    除了欄位和數據類型之外,源和目標
    由於它包括平移方向進行管理,
    可以提取所需的雙語語料庫。
    我們還可以創建多語言術語詞典。

我們還支援以下專業領域

實施結果

一家大型電信公司的研究部門
/廣播公司研究院
/AI 機器翻譯引擎開發公司

常見問題解答

什麼是「雙語語料庫」?
雙語語料庫是已被翻譯成一種語言以及兩種或多種語言組合的文本集合。 在開發基於 AI 的機器翻譯引擎時,維護前後上下文的數據非常有價值。 如果文本是用一種語言編寫的,而少於兩種語言,則稱為單語語料庫。
雙語語料庫中有多少個單詞和單詞組合是常見的?
我們提供最廣泛的日語和英語語言。 其他組合包括英語和中文、西班牙文和法語、印尼語和葡萄牙文等。
如果我購買了雙語語料庫,它的使用是否有任何限制?
是的,有只能用於機器學習的並行語料庫,也有可以在網站和教材上發佈的並行語料庫。 在後一種情況下,我們將在購買前討論條款和條件。
雙語語料庫的最低購買單位和價格是多少?
據說,用於機器學習時大約需要 100,000 對,我們的客戶經常以該單位購買。 價格將根據應用和購買數量單獨討論。
雙語語料庫是如何交付的?
根據要求,我們將以文本檔(CSV、TSV 等)或 Excel 檔的形式提供。

選擇雙語語料庫時要考慮的要點

選擇雙語語料庫時要考慮的要點

在機器翻譯和多語言生成式 AI 的開發和調整中,對雙語語料庫的需求正在增加。 此外,當翻譯人員開始在新領域進行翻譯時,如果保持內部積累的翻譯記憶庫,翻譯工作的效率將大大提高。 另一方面,自己收集系統的雙語語料庫並不容易,從外部獲取數據並專注於開發所需的可交付成果和翻譯工作是有效的。

以下六點對於選擇雙語語料庫很重要。
1) 語言組合
2) 欄位
3) 品質
4) 數量
5) 資料類型
6) 上下文的存在與否

1) 中的「語言組合」是指翻譯人員要翻譯的語言對或機器翻譯開發中要培訓的語言對是日語和英語還是日語和中文。 同樣,在註冊您使用的CAT工具的翻譯記憶庫時,“語言組合”是最重要的因素。 此外,如果您正在尋找更自然的表達方式,瞭解哪種語言是源文本也很重要。 舉個具體的例子,即使你說 「日英雙語語料庫」,很自然地會感覺到英語表達的流利度和將日文原文翻譯成英文的翻譯背景存在差異。

2) 中的「領域」是指旅遊、醫學、法律、經濟、科學和技術等領域。 改進領域的數據機器學習將導致加速發展。 在構建語言模型以提高特定領域機器翻譯的準確性時,效果的標準約為 100,000 對。 不言而喻,即使從雙語語料庫創建技術詞典,該字段也很重要。 在我們的示例中,當我們以旅遊導向型國家的名義專注於入境支援時,日本所需的領域是旅遊領域,並且需要醫療領域的雙語語料庫來加強對外國遊客和在日本居民的醫療保健。 此外,多年來,需求已經轉移到商業領域,包括用於演示和解釋業務內容的演示材料,以及在會議和活動中發表演講的錄音,然後進行問答。

換句話說,3) 的「品質」是指準確性,並取決於創建雙語語料庫的方法。 數據最好是人工翻譯,如果用機器翻譯,沒有經過人眼檢查或糾正,品質自然會變差。 此外,即使是手動翻譯的雙語數據,一個原文也可能有兩個或多個翻譯,如果原文和譯文必須對應在一個句子中,品質會受到影響。 此外,如果翻譯過於簡短,則不是一個好的雙語語料庫。

例如,如果在內部翻譯支援工具中註冊翻譯記憶庫或單詞詞典的目的是在特定領域進行數萬對雙語翻譯,那麼 4) 中的“數量”可以說對翻譯人員來說是一個足夠有用的數量。 在特定領域進行機器學習時,例如在開發機器翻譯引擎時,據說 100,000 對會產生一定的效果。 另一方面,據說開發一個通用機器翻譯引擎需要數千萬對。 因此,所需的雙語語料庫數量因應用程式而異。

5) 中的「數據類型」表示創建雙語語料庫的文件是報告、白皮書、演示文稿、新聞發佈會、問答環節等。 如果您想機器學習書面語言,使用報告和白皮書更有效,如果您想機器學習口語,使用由演示文稿、新聞發佈會和問答環節創建的雙語語料庫更有效。 在我們的雙語語料庫中,屬性得到了精細管理,因此可以按數據類型提取雙語語料庫。

6) 中的「上下文的存在與否」是指多個句子之間是否存在語義聯繫。 具體來說,詞典中的例句只需要包含一個特定的詞條,它們與其他例句之間沒有上下文。 因此,判斷沒有上下文。 另一方面,報告是「上下文相關的」,因為它由描述事件或事件的多個句子組成。 同樣,新聞發佈會和問答環節可以說是有“背景”的,因為多個演講者輪流相互交談。 為了使用聊天機器人(而不僅僅是機器翻譯)生成更準確的答案,現在比以往任何時候都更需要在用於機器學習的雙語語料庫中擁有“上下文”。

總結
在選擇雙語語料庫時,根據應用需要考慮上述 1) 至 6)。 尤其是在為特定域執行機器學習時,重要的是要考慮對品質、數據類型和上下文的需求。 要獲得適合您的產品,請先查看我們的免費樣本數據。

關閉
查看更多