Wikipediaにある表をCalcに取り込む方法

Wikipediaに書かれている表をExcelとかCalcに取り込みたいことってあると思うんですよ。

わたしはWikidataぽいことをしていると常にそんな気持ちになるのですがそれは置いておきます。とにかくまあ、自由に使えるものなのでじゃんじゃん加工して使いたいと思うのが人情です。

それで、やったみたらうまくいったり行かなかったりしたのでその経過などをここにメモしておきます。使っているのはMacOSX版のLibre Offceバージョン: 5.0.4.2です。

普通のレイアウトのテーブル

レイアウトが凝っていない普通のテーブルでは、コピペでふつうに取り込めます。ほんとうはCopy & Pasteとかきたいのですがコピペって言わないと通じない方がいるみたいなのでコピペと書きました。

[[南北朝時代]]にある南北朝時代元号の表

f:id:Suisui:20160323213522p:plain

これをCalcにコピペするとこうなります。

f:id:Suisui:20160323213617p:plain

だいたいうまくいっているように見えます。

ちょっと凝ったレイアウトのテーブル

ではその下にある、南北朝時代天皇のテーブル

f:id:Suisui:20160323213912p:plain

これをコピペしてみましょう。

f:id:Suisui:20160323214310p:plain

左側はうまくいきましたが右側はレイアウトが崩れてしまいました。

インポートしてみる

CalcにはExcelのデータ>Webクエリ にあたる機能があって、これを使うとwebページから表を取り込むことができます。

名前が訳分かりませんがメニューから挿入>外部データへのリンクを選びます。

f:id:Suisui:20160323215709p:plain

よくわからないダイアログが出るので、この上のテキストボックスにURLを入れてEnterを押します。(右のボタンをクリックではダメです。OKもクリックできません)

f:id:Suisui:20160323215802p:plain

すると下側の枠内がいろいろ埋まるので、HTML_tablesを選んでOKをクリックします。

f:id:Suisui:20160323215945p:plain

これでインポートは出来るのですが、残念ながら文字化けしてしまいました。

f:id:Suisui:20160323220041p:plain

元の表と見比べると分かりますが、文字化けはしているもののレイアウトはきちんと再現できているようです。

となると文字化けだけ直せば良さそうです。

適当に文字化け対応する

Calcでは通常のテキストファイルなどを開く時にはエンコーディングを手動で設定できますが、HTMLだとできないようです。

そこで、ファイルに細工をします。

まず、元のhtmlファイルをダウンロードします。Firefoxだとメニューから別名でページを保存->Webpページ、HTMLのみで保存します。

テキストエディタで保存したhtmlを開きます。

f:id:Suisui:20160323220803p:plain

4行目ぐらいに

<meta charset="UTF-8" />

という記述があるのでこれを

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

に書き換えて保存します。

f:id:Suisui:20160323221205p:plain

これをインポートしてみましょう。

Calcで挿入>外部データへのリンクを選び、こんどは検索ボタンを押して先ほど保存したhtmlを指定します。

f:id:Suisui:20160323221655p:plain

成功です。これで増やしたり減らしたりWikidataに流し込んだりがやりやすくなりました。

まとめ

Wikipediaの表をCalcにインポートするやり方としては

  • Wikipediaのページをhtmlで保存する
  • ヘッダ付近の文字コード指定を書き換える
  • Calcでインポートする

です。

なお、これはCalcのhtml ImportがHTML5にちゃんと対応していないので起きているようです。

Libre Officeのissue のこれだとおもうのですが、同根かどうかはわかりません。

今も昔も他言語系のバグは長期化しやすく、しばらくはこの方法が使えるかもしれませんし、すぐに直るかもしれません。

無料で使わせて頂いてる身ですので、解決策はあるのでのんびり待つことにしようかと思います。

リサイクルSuisui

何年ぶりでしょうか。海獺さんに誘っていただいて、ウィキペディア15周年イベント 東京に参加させていただいて、10年ほどぶりにWikipediaを編集しました。

そこで色々な方と再会、または10年越しの初対面を果たし、さらに当時は知らなかったたくさんの方とお会いできました。

10年でいろいろ失い、世の中から取り残されました。現状は把握できておらず、今の私に何ができるのかよくわかりません。しかし少しでもその呼び出していただいた皆様へ答えたいという思いから、不定期blogを再開しようと思い立ちました。

お会いできた皆様に感謝しかないのですが、特に、出不精になっていた私に参加するきっかけを作ってくださった皆様、ちょっと強引に引っ張り出してくれた海獺さん、強力にサポートしてくださったMiya.mさん、miyaさん、そして出不精している間に出会って今回助けていただいた@ta_niiyanさん、様々な手配をしてくださったスタッフの皆様に感謝いたします。また、今回も含み、さらに長い期間励まし、助け続けていただいているせとさんに特別な感謝をして、始まりのつもりの言葉とさせてください。

よろしくお願いいたします。

伏見オープンデータソンに参加させていただいた話

オープンデータデイに合わせて行われた、伏見オープンデータソンに参加させていただきました。

京都市伏見区の市民講座的な枠で開催されている伏見連続講座の一つとして行われていて、 主催は伏見区役所の伏見丸ごと博物館(facebook)の皆様。開催協力がオープンデータ京都実践会の皆さんです。

なお、写真はありません。写真そのものはいくつかあるのですが、私の気力的に持たないだろうとの判断からです。その分使えそうでかつcommonsにない写真を探すだけでがっかりするぐらい時間を使ってしまう予定です。

会場まで

会場は伏見区役所の一階ホールで、ここは区役所のすぐそばに図書館が併設されており(cf. GoogleMap)、こういう活動にとても向いています。京阪の丹波橋駅近くで、この駅は開業が明治43年と大変古いのに駅や鉄道の周りは、当時突然鉄道にぶった切られた街の雰囲気をとてもよく残していて素敵なところです。

駅から市役所まで歩く途中、消火器に銀座何丁目かと書かていて、銀座?と思っていたのですがそれは後で。

地図上は図書館と市役所は併設されていますが、一つの敷地内ではなく、間に別の建物が建っています。それがわからず1分ほど悩みました。

会場

市役所の一階に、伏見の酒の展示があり、最近お酒好きに自慢された桃の滴を発見して小躍りしたりしました。建物内は最近閉鎖されたっぽい食堂とかもあって、かなりゆったりした作りです。

受付でWikipediaのピンバッジとステッカーをもらって中にはいると、会場のホールは、バレーボールぐらい出来そうな広さの、巨大な練習場みたいな、体育館兼会議室みたいな謎スペースでした。思ったより寒くなくて助かりました。

進行とコース分け

だいたい以下のような感じの進行です。 * 開会挨拶 * オープンデータ京都実践会の活動紹介 * Wikipediaについてざっくり説明

  • OpenStreetMapについて説明
  • 町歩きの簡単な説明とグループわけ
  • おひるごはん
  • 町歩き
  • 編集作業
  • 成果発表

事前にWikipediaOpenStreetmapどちらをメインでやりたいかの希望を出しており、なんとなくWikipediaの希望を出していました。

町歩きは、周辺コースと中心コースの二つがありました。事前にその二つの違いについては、

  • 周辺コースはプロのガイドさんがついて回る。ちょっと遠くまで行く
  • 中心コースはこれまで巡ったところを中心に、ガイドさんはいませんが説明しながら回ります

ぐらいしか情報がなく、ざっくりOpenSteetMapは周辺コース、Wikipediaは中心コースに分けていて、希望があれば変更可能、ということでした。判断可能な情報がとても少ないので色々考えるのはやめて、図書館の方とか町の歴史系やってる人がオススメしてくださるのでそれがいいのであろうとそのまま中心コースへ。

町歩き

町歩きは色々説明を聞きながらあれこれ歩いたので、覚えている範囲でのメモです。

まず市役所から東南方向へ。市役所は宝酒造の工場わきに立っているのですが、区役所と図書館のあるところも宝酒造の土地とのことでした。このあたりは町名が両替町となっています。伏見大手筋商店街を通って伏見銀座跡の碑を見て、かつての両替商跡へ。両替通り(かつての銀座)は、伏見銀座が江戸に移ったあとも両替屋が並んでおり、京都の富豪などが京都市内でお金を借りると目立ってしまうので、伏見まで来て借りたりすることなどで栄えたそうです。また、両替通りの南端は運河に接しており、物流の拠点としても栄えたとのことです。

江戸時代、通常の建物では蔵は町家の奥側に建てられていたのですが、両替商ではそれと別に表側に表蔵が建てられており、それが残っています。また、少しだけ残る土壁は京都さんの浅葱土(あさぎ)で塗ったもので、高級壁材とのことでした。現在管理しておられる方と丸ごと博物館の方々は交流があるらしく、今日いられないのは大変残念、とおっしゃっておられたとのこと。残念。 京阪電車が明治40年ぐらいに通った時に、この両替商の裏側半分が鉄道で分断されています。また、すぐ脇の道は踏切も付いているのですが、これはもともとは道路ではなく、勝手に住人が作った道であることが名前でわかるとのことでした。また、このあたりは市などの計画外に生活道路としてつくられた道路が多数存在するということでした。

すぐ隣のかるたやさん天狗道も今日はお休みで残念。

そのまま南に向かい、願船寺、両替町1丁目の地蔵を右に曲がり、柿の木浜へ。

ここに流れているのは鴨川から宇治川をつないだ運河の高瀬川で、浜という地名は船から荷揚げをしていた場所を指すそうです。また、春には桜の名所なので水を引くのですが、冬には水が枯れており、行った時にはまだ水が入なくて、船も川底についた状態でした。

南浜小学校前の弁天橋を渡り、長建寺へ。お寺の手前に畳屋さんがありました。このお寺、なぜか入り口すぐにジュディ・オングの言葉が掲げられていて謎でした。巨大な鐘楼が印象的。

この辺りは江戸時代に色街だったそうで、それだけにあまり文献が残っていないそうです。

橋を戻って、月桂冠の大倉記念館などがある酒造エリアへ。月桂冠さんは苗字が大倉さんで、屋号が笠置なので、この辺りは大倉とか笠置という名前の建物なんかがたくさんあるそうです。ありました。

ちょうど酒造開きで、酒造の周りはものすごい人だかりでした。みなさん道端にすわってお酒飲みながらおでんを食べていらっしゃいました。市役所のイベントとしてアルコールなしで登録したということで今日はお酒はなし。残念。

ちらっと酒造開きを見学して、そのまま北へ向かい、四つ辻の四つ当たりへ。お城への入り口をまっすぐの道路にしない城郭の施設です。

西へ向かい黄桜を眺めて油かけ地蔵へ。ここに松尾芭蕉の「我衣に ふしみの桃の 雫せよ」の句の碑があります。油かけ地蔵はガラス張りのお堂に安置されていて、入場に200円、油の奉納に1000円とか枯れていました。油かけ地蔵はみんなが油をかけるもんだからてかてかで、不思議な感じでした。お供えに大量のサラダ油とか菜種油が置いてあり、周辺には防火用のバケツてきなものがたくさんあったのが印象的です。今日はお休みで中には入れませんでした。

その後、市電発祥の地の碑がある駿河屋さんへ。徳川家康駿河から連れてきたという説明でしたが、駿河屋を読む限りよくわかりません。というか駿河屋の記事すごいですね。

そのあとは大手筋商店街に戻り、伏見会館とか、伏見東劇とか、かつて伏見に6件あったという映画館幾つかの名残をみて市役所に戻りました。この辺割と詳しめにお話を伺えたのですが、名前がややこしいので間違っている可能性が多々あり、しかもすでにWikipediaに割と詳しめにかかれています。どのくらいややこしいかというと、それぞれ

という名前で、全て現存していません。その場で聞いただけではとても区別して聞き分けられない。。録音しておけばよかったです。。すでにそれぞれそれなりに記事が書かれているので是非ご覧ください。

記事編集

ホールに戻って、編集作業です。体育館のようなスペースなのに電源が豊富にあり、Wifiもわりと安定しており、さらに図書館が隣にあったためか、本も比較的豊富に参照できました。また、今回は共同して記事を書くとか、テーマに沿って、というものはなく、用意していただいた資料と、歩いた中で気になった点について書く、というスタンスで[[伏見大手筋商店街]]にいくばくかの加筆をしました。

前回、自分の普段の作業スペース以外で、新たに使える本も限られ、本も共有で執筆時間2時間では結構色々と厳しかったため、初めから商店街の歴史周りに定めて本を目Grepし、資料として存在してるけどこんなの地元の図書館にしかないだろ的なものから幾つか拾いつつ加筆しました。他に書かれた二つについても後で位置情報だけ付けておこう的な感想は持っています。

発表

発表は、Wikipediaは初心者が若干多く、OSMチームのほうが町歩きが長引き、あまりたくさん編集できなかったため、控えめではありますが、時間を考えればまあ加筆行えたように思います。

Wikipediaチームで編集したのは

でした。

OSMチームで編集したのは

のようです。

懇親会

懇親会では、伏見丸ごと博物館のお二人を相手に、とてもうっとおしく色々喋ってしまいました。申し訳ない。オープンデータ系の話のあれこれはきっと長いことためこみすぎているのだ、との自覚が芽生え始めました。

文化を守っていこうとしている側の葛藤話をいろいろ伺うことができました。京都は、人口はたくさんいるし、予算では追いつかないぐらいの歴史も資料もあるんだけど、たくさんあるゆえに京都の中心地以外で今まさに失われている文化がたくさんある、などの話を伺えてよかったです。

地元の方から積極的に話を伺ったりしている活動は是非続けていただきたいです。ほんとう、そういう活動をなんとかしたい自分がいます。直接やりたいのではなく、後の世界に、こういう文化があったと研究できる資料を残すための、何か方法があるはずだ、とそう考えています。

いやまあ、酒の席の話なのでアレです。この辺にしておきます。

感想など

開催、スタッフをされた皆様、お疲れさまでした。前回よりもよく雰囲気がわかりました。私自身は昔の話しか出来ず、もう少しブランクの自覚が必要です。

前回も今回も、初心者に割と優しい会ではありますが、まだまだ歩み寄らないとならない部分は多数あるんだなぁというのが今のところの感想です。プレゼン的にやったほうがいい内容と、資料を手元に渡したほうがいい内容が整理できてない感じがつらいのかな?とかいろいろ考えはしましたがまだ具体的なアレまで届いていません。

[[wb:ウィキペディアの書き方 入門編]]とか(メンテされてるのかよくわかりませんが)からもっと抽出したチートシート的なものがあると少しいいのかなあ。と思いながら、まだできることは山ほどあるんだなと実感した次第です。

あと、伏見のお酒甘くて美味しかったです。お土産に買った酒みかさも美味しかった。またお会いしましょう。