データ流通市場の歩き方

株式会社日本データ取引所の公式ブログです。

行政オープンデータの歴史に学ぶ、データ公開の制度と実践 #2 日本のオープンデータに迫る

データ流通ことはじめバナー画像

こんにちは。本連載では、データ流通市場に関連する用語や、業界動向を解説しています。前回に引き続き、テーマは政府のオープンデータ運動です。

前回はオープンデータ運動の国際史を振り返りました。今回はいよいよ、日本におけるオープンデータ推進のようすに迫ります! 政府の推進戦略、実際にどのようなデータがどこで公開されているのか、そして日本のオープンデータの課題を見てみましょう。

日本政府のオープンデータ推進戦略

お手本になる? 行動計画と規約の整備

日本政府が本格的にオープンデータに取り組み始めたのは、2012年のことです。同年IT総合戦略本部が策定した「電子行政オープンデータ戦略」には、積極的な公共データの公開、機械判読可能な形式での公開、営利目的も含めた活用の促進などが盛り込まれました。これを皮切りに、国内の制度・規約の整備が進みます。

2012年7月には総務省の主導で「オープンデータ流通推進コンソーシアム」が設立されます。オープンデータ流通の環境・基盤整備を推進する団体で、交流会・検討会を定期開催するほか、「情報流通連携基盤システム外部仕様書」「オープンデータ利活用ビジネス事例集」「データの公開・利活用に関するツール集」など実務者向けの参考資料を作成・公開しています(2014年に一般社団法人オープン&ビッグデータ活用・地方創生推進機構(VLED)が継承)。また12月10日には、「電子行政オープンデータ実務者会議」の第1回会合*1が開催され、同会議主導のもと「政府標準利用規約」(第1.0版)が制定されました(2015年に第2.0版を公表)。行政が公開する情報の権利規定を整理した規約で、「原則として著作権フリーであること」が明示された画期的なものです。

こうした地ならしを踏まえて、2013年6月24日に閣議決定された「世界最先端IT国家創造宣言」(以下、「宣言」)では、政府が持つデータのオープン化が力強く謳われました。続く10月29日には「日本のオープンデータ憲章アクションプラン[各府省情報化統括責任者(CIO)連絡会議決定, 2013]が決定。政府による大方針が示されたことで、自治体でもデータカタログサイトの開設などが進みます。

さらに、2016年5月20日には、「宣言」の改定と合わせ、「【オープンデータ2.0】官民一体となったデータ流通の促進」を発表。また、12月15日に開催された「未来投資会議構造改革徹底推進会合」の配布資料「第4次産業革命(Society5.0)・イノベーション」には、2020年までを「オープンデータ集中取組期間」と定め、「IT戦略本部及び官民データ活用戦略会議の開催を行う」と明記されます。 [内閣官房情報通信技術総合戦略室, 2016] 他にも、2017年度には「地域未来投資促進法(現:企業立地投資法)」の改正が見込まれています。この法律に則って、将来には、今よりも多くのデータが請求・開示されることになるでしょう。

日本のどんなデータが、どこで手に入るのか

日本政府のオープンデータを概観すると?

それでは、実際にどのようなデータが公開されているでしょうか。趨勢を知るために、日本政府が「DATA.GO.JP」で公開するデータについて、種類と形式の統計を取ってみました。

データの種類

分類別に見てみると、「行財政」が最多の29%(図6)。続く「司法・安全・環境」「運輸・観光」「国土・気象」「教育・文化・スポーツ」がそれぞれ9-11%で、これらで全体の過半数を占めます。さらに、登録されたデータセット全体の名称をテキスト分析してみると、国民生活に関する統計、学校教育や科学調査のデータ、政治活動の予算・公示などのデータが収録されていることが窺えます(図7)。

図 6 DATA.GO.JPで公開されているデータセットの種類の分布

図 6 DATA.GO.JPで公開されているデータセットの種類の分布

図 7 DATA.GO.JPのデータセット名に含まれるキーワード

図 7 DATA.GO.JPのデータセット名に含まれるキーワード


ファイル形式

ファイル形式の推移も見てみましょう。*2 2013年には15,000件弱だったデータセット数が、2015年には20,000件以上公開されて、累計51,552件に至っています。年々、オープン化が進んでいるとわかります。

図 8 OPEN DATAに登録されたデータセットの件数

図 8 OPEN DATAに登録されたデータセットの件数

図 9 DATA.GO.JPに登録されたデータセットの割合

図 9 DATA.GO.JPに登録されたデータセットの割合

 

よく指摘されるように、その内訳のうち、約40%がPDFです。調査報告書が多数掲載され、「文献」として貴重ですが、加工や集計には使いづらいですね。

次いで多いのはHTMLです(約30%)。「HTMLでいいの?」とお思いかもしれませんが、スクレイピングツールを使えば、PDFに比べてデータを取得・加工しやすいのです。Chrome拡張機能Scraperimport.ioなど、無料ツールも使えます [わいひら(yhira), 2016](分類は「HTML」なのに、リンク先がPDF文書の一覧ページだったりすることもありますが……)。

機械判読を阻む壁は?

機械判読性で劣るPDFやHTMLの比率が高いのはなぜでしょう。オープンデータに限りませんが、「改ざん防止」「印章が必要」「形式の統一」といった行政文書に特有の制約に加え、二次利用を前提に集計データを加工する作業負荷もあって、公共サイトでは従来、どうしてもPDFの比重が高くなりがちなのです。*3

日本語独特の「記法」も課題です。日本語は膠着語に分類され、英語のように単語と単語の間に空白を置きません。「東京都」と「京都」の違いを機械に判読させるには工夫が必要でした。公文書の「作成法」も、テキストデータの扱いを難しくする一因です。印刷時の見た目を優先して、「総 務 大 臣」などと一字空けした書き方をすると、その単語は「総務大臣」だと認識されません。悲しいかな、データ活用の推進を目指す法案でさえ、ベタ打ちの文書を公開するのがやっと。

図 10 構造化されていない文書の例:官民データ活用推進基本法案

図 10 構造化されていない文書の例:官民データ活用推進基本法案


集計しやすいデータは増えていないの?

それでも、編集や集計のしやすいデータも今では相当数が公開されるようになりました。5 Starモデルの★★~★★★★★に相当します。図8・9の通り、「Data.go.jp」でもExcelcsvの割合が約25%まで増えています(2015年の前年比。件数では約1,000件増)。

また、「e-Stat」(開発:総務省統計局, 運営:独立行政法人統計センター)では、約600種類ある政府統計のうち、550の集計表(約120万表、Excelまたはcsv)と67の統計(約8万データセットXML、基幹統計52統計を含む)を提供。XLS、XLSXでのデータ提供(2008年から)、XML及びjson形式の対応(2014年。APIも開放)、LODに対応した「統計LOD」(2016年。国勢調査や経済センサスなど7種類を対象)など着々と施策が進み、全体のダウンロード数は今や年間約5,000万件に達しました。 [独立行政法人統計センター, 2016]

もっと詳しいデータは提供されないの?

「もっと詳しいデータはないの?」といった要望にも応えて、各省庁が分析用データの提供も始めています。

厚生労働省は「医薬品副作用データベース」(2010年から)、「レセプト情報・特定健診等情報データベース」(2011年から)、「国民生活基礎調査」の匿名データを提供します。総務省は、国勢調査、住宅・土地統計調査、全国消費実態調査、労働力調査、就業構造基本調査、社会生活基本調査の6つを提供。傘下の統計センターが要望に沿ったデータを作ってくれる「オーダーメード集計」(2006年)に加えて、より個票に近い「匿名データ」(2012年)の提供も行います。どちらもデータの利用目的は「学術研究の発展や、高等教育の発展に資すること」に限られ、事前審査もありますが、数万円・1ヶ月ほどで高品質のデータが購入できます。

地域のデータはどこで入手できる?

図11 地域資源データ共有サイト CityData

図11 地域資源データ共有サイト CityData

 自治体もオープンデータを提供しています。やり方は様々ですが(公式ホームページ、独自のカタログサイト、地域共有サイト、一般社団法人リンクデータのような半官半民団体など)、概況を知りたい方は、地域資源データ共有サイト「CityData.jp」(Linkdata.org)が便利です。データセット数とアイデア数を評価指標とした自治体ランキングを公開しています。

長野県須坂市、神奈川県横浜市福井県鯖江市などが上位に名を連ねます(2016年12月現在)。最上位の須坂市の公式サイト「いきいきすざか」を見てみると、「Linkdata.org」でデータ公開するだけでなく、市民からオープンデータの提案を受け付けていて、名古屋大学大学院の遠藤守教授、兼松篤子研究員らが精力的にデータを作成・公開しています。

 

今回の記事では、日本のオープンデータ運動について見てきました。次回は、自組織でオープンデータを作る方法やそのメリット、課題の乗り越え方について解説します。

▼次回記事はこちら

blog.j-dex.co.jp

編集部からのお知らせ 

私たち日本データ取引所は、売りたいデータを簡単に出品でき、欲しいデータをすぐに探せるデータマーケットプレイス「JDEX」を運営しています。データ活用を一歩前に進めたい方は、ぜひ以下のリンクにアクセスしてみてください。

www.service.jdex.jp

(著作:清水響子+編集部 編集・構成:編集部)

*1:2013年3月27日までは企画委員会の下に置かれていた。

*2:内閣官房「IT DASHBOARDhttp://www.itdashboard.go.jp/ 政府のオープンデータより、2016年12月に取得したデータに基づく。

*3:中央省庁の公式サイトで公開されている情報の形式がHTML1ファイルに対してPDF2ファイルという調査結果もある。