PDF / 1.2 MB
PDF / 1.2 MB
異なる文化で生まれた世界認識を、日本語だけ学習したモデルで捉え直すー
「[穴埋め式]世界ことわざ辞典」は、日本語データのみから作られた言語モデルを使って、海外のことわざを再構成していくことでつくる、新しい辞典です。
世界の様々な国からことわざを収集、文中における単語をいくつかマスク=黒塗りしたうえで、言語モデルにその黒塗り箇所に入る単語を推測させます。
各ことわざについて、単語を 100 個推測させることで新たなテキストを生成。それらが原文と意味の近い順に掲載されています。
各ページを上から下へ順に読んでいくことで、元の意味からどんどんと離れていく、日本語データ独自の解釈による「ことわざ」を見ることができるでしょう。
機械学習における学習データの持つバイアスについて議論が生まれつつある昨今、本辞書ではあえて日本語のみを学習したモデルで、異文化の世界認識を表すテキストとも言えることわざの再構成を行っていきます。そこから日本語を扱う社会について新しい視点を与えられることができたら幸いです。
全49のことわざを収録。本作には「立ち読み版」がございます。
アーティスト, 研究者
アーティスト・研究者。朝日新聞社メディアラボにて機械学習・自然言語処理の研究に従事。主な活動・作品に『バイナリカードゲーム』(2014年〜)『Coded Textile』(ANREALAGEとの共作、2016年)『意識の辞書』(spiral、2017年)『はなしたところで(落花有意/Talked)』(NTT InterCommunication Center、2018年)など。
朝日新聞社メディアラボは、新規ビジネスの開発や出資・投資、研究開発などを主なミッションとし、2013年9月に発足した部署です。発足当初より研究開発(R&D)がスコープにあり、新技術を積極的に取り入れ、将来のビジネスに活かす活動を進めています。