最近立て続けにオープンデータに関するシンポジウムに参加させていただいた(9月28日:LODチャレンジキックオフシンポジウム、10月2日:開発者の立場からオープンデータを考える会議)ので、その報告も兼ねてオープンデータについて考察してみたい。
どちらのシンポジウムもおおよそ100名から150名ほどの参加者で、日本での本格的な盛り上がりはこれから、といったところだが、推進団体の方々はほぼボランティアであるにも関わらず真摯且つ楽しんで活動されているようにうかがえた。また、各団体の代表の方の講演は内容もさることながら話術も巧みで大変面白かった。以下は、それらのシンポジウムで拝聴した内容を踏まえ個人的な感想も加えてまとめたものだ。
オープンデータについては、十数年前からSemantic Webの一環としてW3Cを中心に着々と技術体系が構築されてきたが、中々爆発的に普及するところまでには至っていなかった。ところが、今年のG8でオープンデータ憲章なるものが宣言されたこともあり、ここ数年で日本においても一気にオープンデータに関わる活動が加速してきている。
現在の日本では、
・日本政府や地方行政府が保有するデータのオープン化に着手。
・非営利団体がボランティア的にオープンデータを利活用するアプリケーションの開発を始めた。
・利活用の目的は、市民生活向上や災害時の市民の安全確保などの公共的サービスが中心。
といった状況のようだ。
技術的な観点では、データの公開とその利用が始まったばかり(鯖江市のように一部地方公共団体では先進的な取り組みがなされているが)であり、
・1か所の行政府が公開するデータを目的に応じて加工する、というサービスが中心。
・公開されるデータの形式はExcelやCSVが中心。
といった状況だ。Tim Berners Lee氏が描くLinked Open Dataの世界、つまりWebに公開されたデータ同士をRDFやSPARQLを用いてリンクして活用する、という段階に到達するにはまだしばらく時間がかかりそうだ(鯖江市はRDF化を推進している)。
ここからは個人的見解。次の記事(http://okfn.jp/2013/08/16/rethink-g8-summit-2/)にあるようにオープンデータ化の推進の背景には英米政府の経済的な戦略があるようなので、いずれ日本でも次のような状況に進んでいくのだろう。
①利活用目的の拡大
・市民生活に関わる公共サービス的な利活用だけではなく企業の営利活動に資する利活用に広がる。
②開発ビジネスの誕生
・①にともなって、ボランティア的開発に加え、オープンデータを活用したビジネスが生まれる(英米ではすでに生まれている)。
③公開データの範囲拡大
・行政府のデータだけでなく企業や個人もデータをオープンにする。
④リンクデータ化
・Open Data からLinked Open Dataへのシフト。
③については、一足飛びに企業がデータを公開する状況になることは難しいだろうが、少なくとも業界団体のような組織がデータを公開することはそれほど難しいことではないだろう。企業のデータもそれに続き段階的にオープン化されることも考えられる。ただし、それはオープンデータの文脈、すなわち基本的にデータの2次利用をフリーにするというクリエイティブコモンズの範囲の話であって、有償利用や例えば会員制などで利用範囲を限定するのであればデータを公開する企業はすぐにでも現れてくるだろう。おりしもビジネス向けITの世界ではビッグデータが流行しており、データマーケットプレイスや複数の企業がアライアンスを結んでデータを共有し利用する動きが見られ始めている。
前回のブログ(http://www.intmel.co.jp/blog/)でも書いたように、いままで企業の情報システムは基本的に閉じた環境の中で利用されてきたが、今後はSNSなど個人が利用するデータや公共データ、そして企業のデータが混然となってWeb上を行き交い、それらのデータを活用することがITの中心になっていくのではないだろうか(ただし、ガートナー社のハイプカーブ上の動きには注意を払っておく必要はあるが)。
今後は、大企業を除いて自前で独自システムを構築し運営する企業は減ってくると思われるから、それにしたがってSI事業も先細りになるだろう。したがって、企業向けIT業界の構図はここ何年かで大きく変わるに違いない。この点については多くの識者が指摘するところだ(例えば、田中克己氏のhttp://itpro.nikkeibp.co.jp/article/Watcher/20130723/493403/)。そこで、LODを中心としてどのようなサービス(ビジネス)が成り立ち得るか考えてみた。
まず、LODが普及した暁にはデータの提供から利用まで次のような機能が必要になるだろう。
①データ提供
②データ整備と公開
③データ索引管理
④アプリケーション提供
⑤アプリケーション利用
一番シンプルな構造は複数のデータ提供者がデータを提供し、データ利用者がアプリケーションを構築し各サイトのデータを集めて利用する形だ。つまり上記の①と②をデータ提供者が担い、④と⑤をデータ利用者が担う構造だ(③はないと考える)。この場合は、有償でのデータ提供を除けばビジネスは成立しない。ビジネスとして成り立つのは、②から④までがデータの提供、利用から分離したときだ。
②ではそれらの組織が公開するデータについて専門知識をもって精査し公開に見合った品質にまで高めるサービスを行う。今日においても企業や行政府では、例えばひとつの取引先に複数のコードが付与されていたり、デッドデータがあったりと、データの品質確保に難渋しているのが実態だから、専門知識をもって公開するデータの品質を高めるサービスは成り立つ。③を担う組織はリポジトリを基盤として複数組織が提供するオープンデータを管理する。折角データを公開してもどこに何があるかわからなければ利用することはできない。③の機能はオープンデータの所在や構造を横断的に管理し利用者に提示する役割を担う。今日ではCKANによるデータカタログサイトが該当する。しかし、現在は公開されたデータの羅列にとどまっており(筆者の理解する範囲。間違っていたらご指摘ください)、Linked Dataが普及した暁には、もうすこし利便性を向上させる必要があると思われる。オープンデータ同士のリンク関係が図で表現されていたり(現在でも下図のような絵が存在するがこれはLODの概念をイメージ化したものであり、LODの利用を考慮したものではない)、
オントロジーの定義を含めてデータの意味が示されていたりする必要がある(SPARQLを利用する際には必須だろう)。④は、独立したビジネスとしてもっともイメージしやすいサービスであり、今日においてすでに英米ではビジネスが始まっている(日本のオープンデータを推進する組織のほとんどが提供するサービスもこの分類に含まれる。ただし現在は無償だが)。これらの機能が多様に離合するなかでビジネスが成立するのではないだろうか。
今回は企業向けITサービスを生業とする技術者の立場からオープンデータの動きを考察した。企業向けITサービス市場が大きな変曲点を迎える中で今後どのような環境変化が訪れるかを把握しておくことは業界関係者にとって切実な問題である。筆者の想像通りの世界が現れるかわからないが参考にしていただければと思う。
なお、前回のブログと一部重複する内容になってしまったがご了承願いたい。また、本稿ではセマンティックウェブについての考察を除外した。
コメントを残す