[MASK]ed World Proverb Dictionary

PDF / 1.2 MB

[MASK]ed World Proverb Dictionary

PDF / 1.2 MB

異なる文化で生まれた世界認識を、日本語だけ学習したモデルで捉え直すー

「[穴埋め式]世界ことわざ辞典」は、日本語データのみから作られた言語モデルを使って、海外のことわざを再構成していくことでつくる、新しい辞典です。

世界の様々な国からことわざを収集、文中における単語をいくつかマスク=黒塗りしたうえで、言語モデルにその黒塗り箇所に入る単語を推測させます。

各ことわざについて、単語を 100 個推測させることで新たなテキストを生成。それらが原文と意味の近い順に掲載されています。

各ページを上から下へ順に読んでいくことで、元の意味からどんどんと離れていく、日本語データ独自の解釈による「ことわざ」を見ることができるでしょう。

機械学習における学習データの持つバイアスについて議論が生まれつつある昨今、本辞書ではあえて日本語のみを学習したモデルで、異文化の世界認識を表すテキストとも言えることわざの再構成を行っていきます。そこから日本語を扱う社会について新しい視点を与えられることができたら幸いです。

作品観賞のための特記事項

全49のことわざを収録。本作には「立ち読み版」がございます。

関連リンク

©Toru Urakawa, Media R&D Center, The Asahi Shimbun Company, CC BY-SA 3.0
¥500DOWNLOAD

Toru Urakawa, Media R&D Center, The Asahi Shimbun Company

Artist, Researcher

浦川通

アーティスト・研究者。朝日新聞社メディア研究開発センターにて機械学習・自然言語処理の研究に従事。主な活動・作品に『バイナリカードゲーム』(2014年〜)『Coded Textile』(ANREALAGEとの共作、2016年)『意識の辞書』(spiral、2017年)『はなしたところで(落花有意/Talked)』(NTT InterCommunication Center、2018年)など。

朝日新聞社メディア研究開発センター

朝日新聞社では、メディアラボ・研究チームと、情報技術本部・研究開発チーム「ICTRAD」を統合し、「メディア研究開発センター」が2021年4月に発足しました。人工知能を始めとする先端メディア技術と、新聞社ならではの豊富なテキストや写真、音声などの資源を活用し、社内外の問題解決を目指すとともに、自然言語処理や画像処理をはじめとした先端技術の研究・開発を進めていきます。


  • We use Gumroad for payment system in US dollars. The withdrawal amount may differ from the displayed amount.
  • Tax included.