2019 Wikidataでの活動メモ

今年もいろいろなことがありました。ウィキデータは履歴が膨大になる傾向にあり、やれることも分野としては多岐にわたるため、個人で何をしたのかサッパリわからなくなってしまいがちです。そこで今年何をしていたか覚えている範囲で残しておくエントリです。

1月

  • 前にいったエッシャー展の図録をもとに、エッシャーの絵画のタイトルのラベル、作成年、描かれているものを追加。図録からの追加は大変な重労働で、数日で挫折。代わりに、図の中に多く登場した植物、動物、立体図形、イタリアの地名などを登録。特に星形多面体は上手に検索する方法もなく、もうちょっと検索できるようにしたい。しかしこういった文献少ない分野の構造化は専門知識ある人にお任せして次に進む。

  • ついでに以前行ったバベルの塔展覧会図録、ミュシャ展の図録などから追加。聖書の各節のアイテムを発見し、日本語ラベルをつける。そこでユダヤ教の聖書は最後の方の章のつけ方がキリスト教とは異なるなどの使い所がわからない知識を得る。いまは各節までアイテムが作られている様子でそのうち拡張が必要。そうなると他の宗教の聖典や法令文書もきになる。

  • スラブ叙事詩のタイトルや順序周りを整備。新国立美術館の図録に大変お世話になる。チェコから持ち出されていないからか、英語圏で不人気なのは驚いた。

2月 - 4月

  • 大阪市立図書館さんが浪花百景をCC-by-saでCommonsにアップロードしてくださったものをベースに、Wikidataの整備。投稿されたタイトルがあれこればらつきがあったので、大阪府立図書館に1972本を見せてもらいに行って、タイトル、内容、ボストン美術館所蔵のものとidリンクなど整備。(位置もだいぶ調べたけど投稿していない。)内容についてはまだ大量に手元にデータが残っていて何とかしなければ状態。このため大阪府立図書館さんを何度も利用させていただきました。
    • このとき、Commonsのテンプレート拡張についてMiyaさんから頂いた質問が色々と的を得ていたのでメモ
  • また、浪花百景で橋がたくさん表題として選ばれていたことから、大阪にあった橋と掘についてこの後5月頃まで調べる活動をしていました。調べたものの一部は以前Wikidataで遊ぼうで紹介した通りです。

3月のインターナショナルオープンデータデイ2019 第10回LODハッカソン in インターナショナル・オープンデータ・デイ大阪2019 に参加させていただきました - 休符の余韻で楽しいことがあったのは書いた通りです。

4月頃から仕事が落ち着かず、Wikidataの活動はしばらく迷走(調査に時間がかからないものばかりやる感じ)していました。

7月

  • 選挙があったころ、日本の総理大臣関係を見て、総理大臣関係を整備。就任日、代などが英語版Wikipediaのカウント方法(アメリカ大統領と一緒)になっていたので、それを直しつつ、内閣府の資料にリンク、先代次代を埋めるのが主。2016年頭にはアメリカ合衆国大統領はほとんど完備されていて、すでにその家族、親族、家系に及ぶまで整備されていたのに追いつきたいなぁと思っていたころから3年、ようやく最低限整備できました。まだまだですが。
  • 続いて各内閣の大臣の整備に手をつける。そこで明治初期の日本の地域区分、職制、省庁の組織などについて、Wikiedia に記述がないとは言わないけど、明確に書かれていない、幾つもの記事に分散している、短期間だけ存在したものについて、名前が同じ別の組織などと混乱した記述になっているなど、素人には判読が難しかったため、関係法令などを当たり始めて時間的に破綻しました。こちらは重要なのでまた数年以内に戻ってくる予定です。
  • 内閣と、各大臣でもう一つ困ったのは数年前に困った名前問題(日本人の名前全然アイテムがない問題)です。これには簡単にやるツールが不足していて、開発が面倒なので2年前から放置していたものです。しかしそろそろやる時が近づいているのを感じました。

8月-10月

  • 職業柄とても忙しい時期で活動は低調でした。
  • 9月 にCode for Libに参加させていただきました。ここで図書館関連の方に興味を持っていただいた、ところまではいいのですが、ここでも名前問題に対峙することになりました。
  • 9月にWikidataではなく、Wikibaseのワークショップに参加させていただきました。すごいマニアックな勉強会に10人以上集まっておどろきました。この時の様子を書きかけていたのですが、マシンが死んでしまって今の環境では仮想環境がうまく動かないためもうちょっと温めておきます。
  • 10月に WikiGap大阪に参加させていただきました。
  • ラグビーW杯の話を聞いて、ラグビー選手の名前をあちこちで収集して登録しました。なんとなく勢いで始めたのですが、ラテン語名の姓名の日本語ラベルはほとんど空白地帯で、これはもうちょっとやらねばという気持ちになってきました。
  • 10月に、使っていたPCが昇天、起動できなくなり、その活動も休止せざるをえませんでした

11月

  • Wikidataにあるラテン語の名前で、日本語表記との対応が存在し、かつ、対応が明らかであるものについて日本語ラベルを入れる作業を開始。ルールは以下。
    • ラテン文字の名前、姓を中心にする。(プロジェクト:nameで整備がすすんでいるため)
    • 新しい名前、姓は作らない。そもそも日本語圏以外ではほとんどのケースについて、姓と名前のどちらがどちらなのか明らかではない。(人種も民族も使用言語も混ざっており、活動国などから単純に判断できない)
    • カナ表記が短縮形になっているケースはすべて省く。(名前の短縮形も整備が進みつつあるため)
    • ニックネームや通り名の表記は省く(名前ではない)
  • イギリスの4万アイテム、スペインの2000アイテムほどを試しに実施

12月

  • アメリカの2万アイテムについて実施 継続中

感想

幾つかの絵画作品と、大阪の橋以外ほとんどがプロジェクト名前関連という感じになりました。数年前は西暦の年代すべてをパトロールしたりしてて、ウィキペディアで散々やったのにWikidataでも5W1Hのベースを作っている感じがでてきた今日この頃です。

ラテン語の名前を先にやっているのは、先人の積み上げてくれたデータを先に生かそうという気持ちからです。英語圏、ドイツ語圏、スペイン語圏、フランス語圏について、明らかに日本語圏よりもデータが充実しています。それに追いつくにはまず彼らのデータをありがたく利用させていただきつつ、構造化の状況を把握し、日本語圏に反映する、というのが現実的な戦略に見えたからです。

来年もぼちぼち頑張ります。