我們向開發人員詢問了創建日韓詞典時的機器加工

高電舍網站的所有訪問者您好! 你好。 我是來自高傳社的佐竹。

為了提升我們網站的內容,我們的開發辦公室還開設了♪「高電社開發辦公室博客」,向大家傳達各種資訊

不擅長科學且不熟悉技術的銷售助理 Satake 採訪了我們的開發人員,並在「高電社開發辦公室博客」中以對話的形式發送給他們。 請繼續閱讀 (*^_^* )那麼,事不宜遲,讓我們開始談正事吧!

說到高電社,我們正在開發與翻譯和字元輸入相關的各種服務,例如軟體開發、手動翻譯和口譯、移動和互聯網相關內容開發以及ASP服務。
事實上,除了上述服務外,我們每天都在充分利用各種技術進行各種開發!

在「開發辦公室博客」的第一期紀念中,我們採訪了開發課 4 的川上先生,瞭解日韓詞典創建中的機械加工~!
川上先生,非常感謝您('・ω・ ́)!

通過自然語言處理構建詞典是可能的!

佐竹:您正在開發一種用於創建日韓詞典的機器流程,但內容到底是什麼? 作為韓國愛好者,我覺得會非常刺激! 此致敬意!

川上: 謝謝。 首先,簡單說明一下我這次負責的工作,我使用統計自然語言處理從大量的日韓雙語句子中製作了一本日韓詞典。 語料庫有超過 1000 萬個並行翻譯,單詞的翻譯會自動從中提取。 在這項開發中,對日語和韓語的高準確性支援得到了認可。

佐竹: ... 對於這個基本問題,我感到抱歉,但首先,您能告訴我們什麼是“自然語言處理”嗎?

川上:自然語言處理是一種允許計算機處理人類日常使用的語言(= 自然語言)的技術,例如日語、英語、中文和韓語。 這種自然語言處理應用於 IME 的預測轉換和漢字轉換,這些 IME 安裝在我們熟悉的 ChineseWriter11 等軟體中。

佐竹: 原來如此! 這種自然語言處理用於熟悉的地方! 要從日語和韓語的雙語句子中提取要翻譯的單詞,例如,
Sun “我喜歡動漫” Han “저는 애니메이션을 좋아합니다”
→ 如果你自動提取一個平行翻譯的單詞...“I ᅵ저 / はᅵ는 / animeᅵ애니메이션 / がᅵ을 / 好きᅵ좋 , 아 / ですᅵ합니다”?

川上: 是的。 如上所述,兩種語言之間的高度對應意味著正確提取單個單詞的日語和韓語的準確性很高。

佐竹:1000 萬的並行翻譯數量令人驚歎,能夠通過自動提取來創建日韓詞典似乎對組織數據非常有用。

川上:這有點跑題了,但日語和韓語的外來詞讀法是完全不同的。 以上為例,在英文的 “anime” 的情況下
它將是日本的“動漫”和韓國的“애니메이션 (enimation)”。

佐竹: 對! 特別驚訝的是,我在本地打不通,我驚訝地發現「麥當勞」和「漢堡王」! 在韓語中,它被稱為“맥도날드 (mednardu)”和“버거킹 (bogokin)”,順便說一句,漢堡包被稱為“햄버거 (haembogo)”。

如果你嘗試轉錄它,你可能感覺不到太大的不同,但是當它真正出現在對話中時,它真的完全沒有意義(哭泣)! 有趣的是,即使是外來詞也有如此不同的發音!

順便說一句,我經常聽到前面提到的「語料庫」這個詞,但它到底是什麼呢?

什麼是語料庫? 我將解釋我們經常聽到的 「語料庫」 一詞。

Kawakami:語料庫是一種語言資源,它收集了大量的書面和口語並創建了一個資料庫。
在這種情況下,有兩種語言,日語和韓語,因此這些語言稱為雙語語料庫。 不同語言之間的句子語料庫稱為雙語語料庫。

Satake:雙語語料庫是用作自然語言處理(如機器翻譯)中的訓練數據的語料庫。

川上:是的。 在這種情況下,我們專注於雙語語料庫中出現的單詞和單詞,並提取了日語和韓語的雙語單詞。
此外,這個雙語語料庫還被用於自然語言處理、語言教育和人工智慧 (AI) 等各個領域,並且對它的需求逐年增加。 特別是對於神經翻譯來說非常重要,神經翻譯會自動從大型語料庫中學習翻譯過程,以及統計翻譯!

佐竹:它真的被應用到了各種領域! 通過讓學生學習雙語語料庫,可以構建一個系統並提高翻譯的準確性。

川上: 是的。 順便說一句,你知道「形態分析」這個詞嗎,這個詞在自然語言處理的研究中很重要?

自然語言處理領域的主題「形態分析」是什麼?

佐竹: 形態學分析... 這是你第一次聽說這個詞! 請解釋一下!! ('・ω・ ́)

川上:「形態分析」是一種將句子分解為「有意義的最小單位(= 語素)」併為每個單位附加詞性標籤的技術。 通過將句子和短語分解成語素,它有助於分析語法和含義。
例如,在句子“I exercise in the park”中,“I(代詞)/ is(副詞)/ park(名詞)/ de(小品詞)/ motor(名詞)/ shi(動詞)/ masu(助動詞)”
我將像這樣劃分句子。
例如,如果通往目的地的道路是一句話「去某個地方」,那麼將道路劃分為道路經過的每個地區併為每個地區分配一個地區名稱(城鎮名稱)的過程就是形態學分析。
你不覺得你在某個地方學到了這種形態分析技術嗎?

佐竹: 不知道在哪... 啊 明白了,跟我很久以前用日語學的詞性分解是一樣的!

川上:實際上,這種形態學分析被用於我們經常使用的各種工具中。
例如,如果你在互聯網搜尋引擎中搜索 「旅遊景點 in Osaka」,它首先會被上述形態分析分成 「Osaka/no/tourist spots」 等詞。 然後搜索單詞。

佐竹: 我不知道我們平時使用的搜尋引擎也用「形態分析」...... 這太神奇了。

川上: 是的。 這種形態學分析用於機器翻譯和人工智慧 (AI)。

佐竹:這種形態學分析在很多地方都有使用。 起初,我認為「形態分析」這個詞本身會顯得困難和複雜,但當我聽到應用實例時,我開始感到一種熟悉感和熟悉感!

我們複製了韓語獨有的書寫資訊!

佐竹:在這個語料庫的形態分析中,你設計了什麼嗎?

Kawakami:在形態分析過程中,韓語被用來恢復獨特的塗鴉資訊。

佐竹:這裡的“劃分”是指通過在文本中添加適當的中斷來使句子更易於閱讀的正字法。
어제 친구와 밥을 먹었습니다. / 我昨天和朋友們共進晚餐。
↑ 像這樣放置一個空格。

佐竹:這是你第一次用這樣的機器處理來製作詞典嗎?

川上:其實,我過去曾致力於創建一本中日詞典,而這項技術就是這個項目的基礎。 例如,我還參與了以下工作。 有關更多資訊,請在此處查看報告。
參考資料:關於平成 27 年詞典創建調查專案
- 中文專利文獻機器翻譯詞典的編寫和機器翻譯質量評估的研究

佐竹: 所以這次經歷導致了這個發展! 對這兩種語言的支持準確性也很高,因此對未來的進一步開發寄予厚望!

Kawakami:在創建我們的雙語語料庫時,我們的工作方式是將我們的兩項優勢有機地結合在一起:自然語言處理技術和人工翻譯。

感覺如何?
這一次,我們採訪了開發人員,了解通過對大量數據進行統計處理來構建詞典的技術。

“自然語言處理”還是“語料庫?“形態分析?”這是一次不懂技術術語的撞擊式採訪,但我對術語的解釋和應用示例很感興趣!

我能夠再次瞭解到,這些不同的技術其實都集中在常生活中隨便用到的服務中,同時,作為軟體開發公司的員工,我反思了自己缺乏學習...... (・ω・' )

希望能通過這個開發博客繼續瞭解♪開發資訊,同時為大家提供開發資訊

此次引入的雙語語料庫可用於應用程式、系統和研發等各種目的。
如果您對雙語語料庫或自然語言處理有任何疑問,請聯繫我們。

如果您對自然語言處理有任何疑問,請在此處聯繫我們>

請繼續關注下一個「開發辦公室博客」!
我們期待您的來信。