ウィキデータ(Wikidata)であそぼう : ウィキデータの項目ページの読み方(簡単編)

前回に引き続き、ウィキデータの紹介です。前回はここで読めます。suisui.hatenadiary.jp

前回の、ウィキデータでは検索した結果を地図に出せるよ、というところまではあちこちで紹介されいるため、すでに皆さんご存知だったと思います。今回は、検索例をお休みして、より楽しむために次に進む前にウィキデータのページの読み方を紹介します。

今回の説明がざっくりでも理解できれば、次回以降、紹介する検索条件をいじったりできるようになります。単に検索結果の紹介を見たいだけであれば今回は飛ばしてもらっても問題ありません。

ウィキデータじゃなくても

ところで、取り出したデータを地図に表示するだけであれば、Google先生のマイマップのほうが簡単で綺麗にできます。例えばこんな風にです。同様にAPIをつかえばOSMやGeonamesでも同じようなことが可能だと思います。じゃあウィキデータでできることはなんだ?というのを感じて欲しいと色々紹介していこうとしているのですが、目指しているものがカンタンキレイにできるもので十分であるならばどんどん使いましょう。人生は短いので、目的としたものを得られてより簡単にできるツールを選びましょう。

気を取り直して

次は、検索した結果からさらに検索してウィキデータっぽく使って行こうかと思ってます*1

しかし、何が検索できるのかがわかれば、自由にいじくり回してより楽しんでいただけるはずです。そのために、ウィキデータのページ読み方を紹介します。

ウィキデータのページのよみかた簡単編(①、②の③でウィキデータ)

ウィキデータの戎橋の項目を見てみてください。よく人が飛び込んでいるあの橋です。ログインしていると掲載している画像と少し違う表示になりますが大体同じはずです。

まずページの先頭に、Wikipediaと同じように「戎橋」とページの名前が書かれています。しかしURLと比べてみるとわかる通り、ウィキデータでのページのタイトルに当たる項目ID (item)と呼ばれるのは、右側のQで始まる方の番号です。

f:id:Suisui:20190424190248p:plain
アイテムID(Q)とラベル

橋の名前や、その下の別名などは、タイトル行の下にあるラベルが並んだボックス(Termbox、たーむぼっくす)の中の値のうち、日本語に対応するものをそのまま目立つように表示しています。つまり、先頭に表示されている「戎橋」は、Q11495351についた日本語のラベルという扱いになっています。

f:id:Suisui:20190424190715p:plain
Termboxと各ラベル

トップには、今日本語の表示にしているために最初が日本語になっていて、同じページを韓国語UIで見ると Termboxの韓国語に書かれている内容が表示されます。そしてQはその項目を識別するIDであるため、どの言語で表示しても常に同じ値となります。

Termboxはすべてのウィキデータの項目に必ずあるものです。それだけにとても大事で、ウィキデータの特徴の一部が詰まっています。しかし重たくなるので今回はスルーします。

(いまやりたい)検索に関係あるのは、その下に大きな文字で「文」と書かれているところから下になります。

f:id:Suisui:20190424193009p:plain
文(Statement)

文というのは学校のマークではなく、ウィキデータに登録しているデータの一つ一つのことを指します*2。一つの箱が一つの文で、項目内のすべての文はその主語が先ほどみたTermboxのラベルの部分になっています。

QのPは値です(文の読み方)

ウィキデータのQで始まるページ内の文は全て、下の図のように①の②は③です(=QのPは値です)と読むと理解できるようになっています。*3

f:id:Suisui:20190424210951p:plain
文の読み方

大事なことなのでもう一度書きます

QのPは値です*4

ウィキデータのQに書く文は基本的に全てこの形になるよう制限されています。ウィキデータは、このQのPは値ですという文を大量に集めているサイトです。そのため、普通の文章を書くスペースは項目には存在しません。

値について

Pの種類によって値には様々なデータが入ります。しかし値の形式は以下のいずれかになります。

  • 別のQ
    • 戎橋のある国(P17)は日本(Q17)です
  • 文字列 + 言語
    • 戎橋の読み(P1814)は「えびすばし」です
  • 日付
    • 戎橋のできた年(P571)は2007年です
  • 数値 + 単位
    • 戎橋の全長(P2043)は18mです
  • 位置座標(緯度 + 軽度)
    • 戎橋の位置座標(P625)は34°40'8.602"N, 135°30'4.900"Eです

なお、画像やファイルはウィキメディア・コモンズに置くことになっていて、ファイル名の文字列で表現できます。また、数式楽譜表記も文字列でできるようになっています。

文(statement)で説明できるもの

この形式に限定すると、小説を書くことは出来ません*5。しかし、この世にあるものはほぼ全て*6文の組み合わせで表現できます。

どの程度細かな表現が現わせるかは、どのようなP/Qが存在するかにより決まります。当然ながら、現段階でのウィキデータではまだ表現できなものもあります。

そして、今表現できないものも表現できるようにするために、日々開発が続けられています。開発を進めている面々には、少なくとも百科事典に書かれている内容は全部この形で表現できるようにするぞ、という気迫を感じる開発状況となっているので、色々期待していいんじゃないかと思っています。

何を検索できるのか

ようやく目的の、検索に到達しました。

ウィキデータでは、QのPは値です、という文を大量に集めているので以下のような検索ができます。

  • Pが特定の値を持つQ
  • Pが特定の範囲の値を持つQ
  • 特定のPが存在しないQ

具体例の方が貧弱ですみません。2019年4月現在でPは6077種類、Qは63303000ほどあり、その組み合わせだけでも気が遠くなるほどの検索が可能です。また、これらの検索を組み合わせて絞り込んだり、複数の結果をマージ、あるいは差分を取ることなどができるため、無限の検索が可能となっています。

しかし無限無限といっていても仕方ないので、何ができるか紹介しようというのがこの遊ぼう企画です。今回は説明メインになりましたが、次回はこの説明も活かしてモリモリ検索していきます。

*1:正確には前回でもすでにやってはいます。

*2:文=Statement (すてーとめんと) といいます

*3:中には日本語が全く見えないページも多数存在するため理解できるかは言語能力にも左右されますが、言語がわからなくても同じ構造になっているのでかなり類推できます。

*4:この形式を、トリプル、あるいはトリプレットといいます

*5:断定はできません。。。しかし非常にむずかしいでしょう

*6:それが何であるかわかっている限り=百科事典のような記載ができるものである限りという条件がつきます。なお、わかっていないものでも不明という定義をつけたり、1300年ごろ、のように範囲だけ指定することはできます。