AIが数千年にわたって損傷で失われていた古代ギリシャ碑文の文章復元を支援
今回は「AIが数千年にわたって損傷で失われていた古代ギリシャ碑文の文章復元を支援」についてご紹介します。
関連ワード (理解、蓄積、見落等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、TechCrunch様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
古代ギリシャ語の研究者にとって、頼りとする原文が数千年前のものという古さゆえに、修復不可能なほど損傷しているというようなことはよくある。DeepMind(ディープマインド)が開発した機械学習モデル「Ithaca(イサカ)」が、歴史家にとって新しい強力なツールになるかもしれない。失われた単語や文章の位置と書かれた年代を驚くほど正確に推測する。AIの珍しい応用例だが、その有用性が技術分野以外でも発揮されることを証明している。
不完全な古文書は、劣化した物質に関するさまざまな分野の専門家が関わる問題だ。原文は石、粘土、パピルスに刻まれている。アッカド語、古代ギリシャ語、リニアA言語で、食料品店の請求書から英雄の旅まで、あらゆることが書かれている。いずれの文書にも共通するのは、数千年の間に蓄積された損傷だ。
文字が磨り減ったり、ちぎれたりしてできた空白は「欠落」と呼ばれ、短いものでは1文字、長いものでは1章、あるいは1つの物語全体が欠落していることもある。欠落を埋めるのは簡単でも不可能でもないが、その間のどこからか始めなければならない。ここでIthacaの出番となる。
Ithaca(オデュッセウスの故郷の島から名づけられた)は、古代ギリシャの膨大なテキストで訓練されており、不足している単語やフレーズが何であるかだけでなく、それがどのくらい古いものか、どこで書かれたかも推定できる。ただ、それだけで叙事詩の全巻を埋めることはできない。これは、この種のテキストを扱う人たちのためのツールであり、解決策ではない。
「Nature(ネイチャー)」誌に掲載された論文では、ペリクレス時代のアテネの勅令を例にとって、その有効性を実証した。紀元前445年に書かれたと考えられているこの勅令は、Ithacaのテキスト分析によれば、実際には紀元前420年前後のものであり、より新しい証拠と一致している。大したことには聞こえないかもしれないが、もし権利章典が実際には20年後に書かれたとしたらと想像して欲しい。
画像クレジット:DeepMind
テキストそのものについては、専門家による1回目の結果は、正解が約25%だった。決して優秀とは言えない。もちろん、テキストの復元は午後のお遊びではなく、長期的なプロジェクトであることはいうまでもない。しかし、人間とIthacaの組み合わせでは、すぐに72%の精度を達成することができた。これは他のケースでもよく見られることだ。究極的には人間の精度の方が高いものの、行き詰まりをすばやく排除したり、出発点を示唆したりして、プロセスを加速できる。医療データの場合、AIがすぐに気づくような異常を人間は見落としがちだが、最終的に詳細に気づき、正しい答えを見つけるのは人間の専門知識だ。
Ithacaは、手元に欠落の多い古代ギリシャ語のテキストがあれば、このサイトで簡易版を試せる。また、そこで提示されている複数の例から1つを使って、空白がどのように埋められるのかを見ることもできる。長い文章や、10文字以上欠けている場合は、このColabノートブックで試してみて欲しい。コードはGitHubのこのページで公開されている。
古代ギリシャ語はIthacaがはっきりと結果を出せる分野だが、チームはすでに他の言語についても懸命に取り組んでいる。アッカド語、デモティック語、ヘブライ語、マヤ語はすべてリストに載っており、今後さらに増えると期待される。
「Ithacaは、人文科学における自然言語処理と機械学習の貢献の可能性を示しています」と、このプロジェクトに携わったアテネ大学のIon Androutsopoulos(イオン・アンドラウトソプロス)教授は話す。「この可能性をさらに実証するためにIthacaのようなプロジェクトがもっと必要ですが、それだけでなく、人文科学とAI手法の両方をよく理解している将来の研究者を育てる適切なコースや教材も求められます」。
画像クレジット:Image Credits:Wikimedia Commons under a CC BY 2.0 license.
【原文】
As if being a scholar in ancient Greek wasn’t hard enough fundamentally, the primary texts they rely on are frequently damaged beyond repair, being as they are thousands of years old. Historians may have a powerful new tool in Ithaca, a machine learning model built by DeepMind that makes surprisingly accurate guesses at missing words and the location and date of the text. It’s an unusual application of AI, but one that demonstrates how useful it can be outside the tech world.
The problem of incomplete ancient texts goes across many disciplines in which experts work with degraded materials. The original document might be made of stone, clay or papyrus, written in Akkadian, ancient Greek or Linear A, and describe anything from a grocer’s bill to a hero’s journey. What they all have in common though is the damage accumulated over thousands of years.
Gaps where the text is worn or torn off are often called lacunae, and can be as short as a missing letter or as long as a chapter, or indeed an entire story. Filling them in can be trivial or impossible, but you have to start somewhere — and that’s where Ithaca is meant to help.
Trained on an huge library of ancient Greek texts, Ithaca (named after Odysseus’s home island) not only can say what a missing word or phrase is likely to be, but can also take a shot at how old it is and where it was written. It’s not going to go filling in a whole epic cycle on its own — it’s meant to be a tool for those who work with these texts, not a solution.
A paper published in the journal Nature demonstrates its efficacy, using as an example some decrees from Periclean Athens. Thought to have been written in around 445 BC, Ithaca suggested based on its textual analysis that they were actually from 420 BC or so — in line with more recent evidence. It might not sound like a lot, but imagine if the Bill of Rights was actually written 20 years later!
Image Credits: DeepMind
As for the text itself, experts in the study got it about 25% right on the first pass; not exactly stellar, though of course text restoration is not meant to be an afternoon lark but a long-term project. Paired with Ithaca, however, they quickly achieved 72% accuracy. This is often found to be the case in other situations where humans ultimately are more accurate but can have their process sped up by quickly eliminating dead ends or suggesting a starting point. In medical data it can be easy to oversee an abnormality the AI might flag quickly — but ultimately it is human expertise that perceives the details and finds the right answer.
You can test out a pared down version of Ithaca here, if you have some lacunae-ridden ancient Greek text handy, or use one of their provided examples to see how it fills in requested gaps. For longer pieces or more than 10 letters missing, try it out in this Colab notebook. The code is available at this GitHub page.
Though ancient Greek is an obvious and fruitful area in which for Ithaca to start, the team is already hard at work on other languages as well. Akkadian, Demotic, Hebrew and Mayan are all on the list, and hopefully more will be added over time.
“Ithaca illustrates the potential contribution of natural language processing and machine learning in the humanities,” said Ion Androutsopoulos, a professor at Athens University who worked on the project. “We need more projects like Ithaca to further showcase this potential, but also suitable courses and teaching material to educate future researchers who will have a better joint understanding of both the humanities and AI methods.”
(文:Devin Coldewey、翻訳:Nariko Mizoguchi)