コロナ禍は日本社会が抱えるさまざまな課題を浮き彫りにしました。それはDXやニューノーマルといった壮大な構想以前の「情報共有」をめぐるものばかりです。たとえば、専門家の提言が政策に活かされない、メディア報道が市民に信用されない、公的支援策が必要な人のもとへ届かない、組織のトップの考えが現場にうまく伝わらない……。
国家戦略から身近なチームのレベルに至るまで、簡単なようで難しい「情報共有」の課題に向き合うこと。そこで株式会社日本データ取引所では、ビジネス・学術それぞれの現場から「データ共用」の実践者を招いて、情報が「伝わる」仕組みをテーマとしてミニシンポジウム「組織の「わかりあえなさ」をつなぐデータ共用」を行いました。そのレポートをお届けします。
「データ共用」という古くて新しい課題
上島邦彦(株式会社日本データ取引所)
本日は「組織の分かり合えなさをつなぐデータ共用」と題したミニシンポジウムを行います。高度な分析や特別な手法を知らなくても、職場におけるデータ共有や情報交換は昔から行われています。とはいえ、働き方のデジタルシフトが進むなかで、組織の情報の流れを整えて、当事者が同じファクトを見ながら議論することの重要性が、ますます高まっているように思います。
現に、世界中がコロナ禍に見舞われるなかで、デジタル関連市場は堅実に成長しています。代表的なのは、Google擁するAlphabetでしょう。昨年は一時期だけ減収しましたが、年間では大幅な増収・増益を記録しています。
働き方のデジタルシフトがこのまま加速して、たとえばリモートワークが当たり前になると、顔合わせの会議と暗黙の了解で合意形成するといった、日本的な働き方も難しくなる。データの取り扱いも変わるはずです。部署をまたいだデータ管理、ときには法人をも越えた情報共有のあり方を、真剣に検討しなければなりません。いわばデータ共有は、担当者個人のノウハウに留まらず、会社全体の経営課題だと考えたほうがいい。
かつて、ビッグデータの特徴は、量が多く(多量)、種類も豊富で(多種類)、ひっきりなしに生成される(多頻度)ことだと言われました。なかでも多種類のデータを取り扱うことが、最先端のテック企業だけではなく、すべての企業や大学、自治体の課題になるのでしょう。
マーケティング分野だけではなく、研究開発分野でも、デジタル化によって情報の流れを整える取り組みが本格化しています。たとえば、2021年6月にトヨタ自動車の株主総会で、技術担当の前田昌彦執行役員が、「トヨタ生産方式によって情報の流れを整理することで、どの部分のデジタル化に注力するべきかわかる」(URL)と語りました。デジタル化によって、新製品開発の「原単位」の縮小が期待できるそうです。
こうした話題を広く「データ共用」の課題と位置づけ、データサイエンスとコミュニケーションプランニングの両方をまたがる議論ができればと思います。ふたりのゲストにお越しいただきました。
まず、東京大学大学院工学系研究科システム創成学専攻助教の早矢仕晃章さん。データ市場がどのような仕組みで成り立っているかを研究されています。データ市場とは、特定のサービスだけではなく、産業全体のダイナミズムを指します。
株式会社オズマピーアール統合コミュニケーション戦略部部長の登坂泰斗さんには、経営と現場、組織と組織をつなぐ立場からお話を伺います。PR戦略にデータを有効活用するには、旧来の組織・役割を越えた動きが必須だと日頃からおっしゃっていますね。
それでは、まず早矢仕さんからお話いただきたいと思います。
データのつながりが生みだすビジネスの歴史
早矢仕
はい、よろしくお願いします。私は異なる分野や組織でデータを交換し、価値を生み出すデータ流通エコシステムとそれを支援する技術開発の研究をしています。
現在、分野を横断してデータを交換し、それによって新しいビジネスを興していくという機運が世界的に高まっていますよね。釈迦に説法ではありますが、まずそういった状況や歴史を概観したいと思います。
まず直近では、2013年ごろにビッグデータブームがありましたね。データ市場ビジネスが始まるのはそのあたりからです。国連ではビッグデータプロジェクトの立ち上げが話題になったり、国内でもビッグデータ戦略が公言されたりしました。2014年になると、中国の公式文書でもビッグデータを意味する熟語が出てくるようになります。
もちろんデータを売買するビジネスそのものは、もっと昔からあります。たとえば、19世紀中頃には、現在のトムソン・ロイター社の前身にあたるロイター社を創業したポール・ロイターが、パリとロンドンの間を飛ぶ伝書鳩を使って株式情報を売買したという記録があります。
次に各国比較をしてみましょう。データ流通ビジネスは国ごとに特徴があります。
まず、アメリカでは業界特化型のシステムが発展しています。たとえば、航空業界のデータを集めてきて、それをほかのデータとつなげて価値を生み出したり、さらにデータの可視化システムや分析ツールまでをセットで販売したり。データだけでなく、そこから生まれる知識も含めて交換するようなビジネスです。
他方EU諸国では、GDPR(EU一般データ保護規則)に代表される法律があり、パーソナルデータの取り扱いについて昔からセンシティブです。そのおかげもあり、ユーザー個々人がちゃんと便益を得たうえでデータの流通ができるように仕組みやアプリケーションのデザインが整えられています。
中国は出足こそ遅かったものの、現在ではユニークなモデルが出てきています。たとえば、電子的にやりとりできるデータはすべて交換していいんだという発想で、音楽から映像からオープンデータまですべて同じようにやり取りできる非営利のデータ流通プラットフォームがあります。
日本はどうでしょうか。IoTの文脈でセンシングデータのやり取りが話題になったり、自動車のデータが活用できるのではないかといった事例が出てきたり、ようやく動き始めたという段階ですよね。どのデータ同士を連携させればビジネスが生まれるのかといった具体的なイメージは、まだできていないところがあるかなと思います。
そもそも、データを連携する・つなげると、どのようないいことがあると思いますか?
私が好きな事例は、疫学の父と言われるジョン・スノー博士によるコレラの研究(Wikipedia)です。当時、コレラは空気感染する病気だと言われていました。しかしスノー博士は、コレラが発生した場所のデータと井戸の位置データとを組み合わせ、感染の要因は水源にあり、その水を飲むことで広がっているのではないかと突き止めたのです。ふたつのデータをつなげたことで、スノウ博士は新しい知識を発見したわけです。
データ同士のつながり、つながりやすいデータ
早矢仕晃章(東京大学)
データのつながりについてもう少し考えてみましょう。
たとえば、天気のデータとスーパーのPOSデータを組み合わせるとしましょう。仮に天気のデータには変数として天気・日付・気温が入っていて、POSデータには売上・日付・商品が入っているとします。この場合、日付という共通の変数をもって、ふたつのデータをつなげることができますよね。そこから「気温が上がるにつれてビールの売上が上がる」といった知識が発見されて、新しいサービスやプロモーションにつながる可能性が生まれるかもしれません。
また先ほどのスノー博士のデータについても、コレラの死者数のデータには緯度・経度が入っていて、井戸のデータにも同様に緯度・経度が入っているとしましょう。これを緯度と経度という共通の変数でつなげれば、先ほどのように死者数と井戸の位置が置かれた地図が描けるようになるわけです。これがデータをつなげるということなんです。
私たちの研究アプローチの一つに、いろいろな分野のデータに含まれている変数をメタデータとして構造的に記述し、その変数を介してデータをどんどんつなげていくというものがあります。
データ流通エコシステムには、オープンデータも秘匿データも同様に扱われます。つまり、企業や個人が誰かに売るためにつくった、買わなければ中身のわからないデータや、そもそも売り物ではないようなデータであっても、メタデータさえ記入されていればよいというわけです。
これらのデータ同士をつなぎ、オープンデータと秘匿データを色分けしたネットワークが次のようなものです(図版1)。青い点はいわゆるオープンデータに代表される共有可能データで、赤い点は企業や個人の持っている秘匿データです。このネットワークは、自然界にみられるネットワークよりも、人間関係のネットワークに似た特徴を持っています。
上島
何種類くらいのデータが使われているのですか?
早矢仕
これは1300種類のデータからつくられたネットワークです。私が所属している大澤幸生研究室で10年近くにわたって集められました。データジャケットと呼ばれるデータに関するメタ情報を、研究者から一般の方までさまざまな方々が入力してくださってこの数になっています。本当はもっと種類があるのですが、オープンにできるものには限りがあるので、今回はこれだけの数になっています。
上島
なるほど。
早矢仕
こうしたデータ同士のネットワークを見るうえで、いくつか重要な切り口があります。まずどのデータが中心的な役割を果たしているか(次数中心性)、次に分野を横断して現れるデータはどれか(媒介中心性)、また、媒介中心性と似ていますが、ほかの領域に現れやすいデータはどれか(拘束度)といったものです。
これらの切り口で見ていくと(図版2)、たとえば駐車場の位置データは、ほかのデータと非常につながりやすいという結果が見えてきます。駐車場の利用数や利用状況、車の車種といったデータと結びついていくので、上位に位置付けられるのです。
ほかには、Facebookのデータもかなり上位になります。ご存知のようにFacebookはパーソナルデータをいろいろ持っていますよね。住所や電話番号、趣味・嗜好といった変数が入っています。これらもほかのデータと非常につながりやすいです。
ほかに面白いものとしては、公衆トイレの情報があります。こういった人間の生理現象に関するデータもいろいろな文脈で出てくるので上位になりやすい傾向があります。
こうした分析によって、あるデータが価値がありそうか、別のどのようなデータとつながりやすいか、といった問いに答える指標をつくることができるようになります。
改めて、共有可能データと秘匿データのネットワークに戻りましょう。
自治体が出しているオープンデータはどれも構造が似ていたり、同じ設計思想でつくられていたりするため、お互いに中心性が高く、全体的な中心性も高いネットワークをつくる傾向にあります。
一方、企業が持っている虎の子のデータは、実はあまりほかのデータとつながっていません。しかし、一部にだけ極端にほかのデータとつながるハブになっている、スーパーデータと呼べるものがあります。それが先ほどお話しした交通機関のデータであったり、Twitterやブログ、掲示板のデータであったりします。こうしたデータは価値の高いものだと言えるかもしれないですね。
それから、企業や個人が持っている秘匿データ同士はほとんどつながりがありません。逆に秘匿データと共有可能データは多くのつながりがあります。つまり、秘匿データは異なる領域のデータを結合し、穴埋めをするような役割があるのではないかと考えています。
言ってみれば私たちの研究には、価値ある秘匿データが数多くデータ市場に乗ってくれば、新しいデータのつながりが生まれてイノベーションが起こるかもしれないという示唆があるわけです。長くなりましたが、私の発表はこれで終わります。
秘匿データの価値
上島
刺激的な発表でした、ありがとうございました。
共有可能なデータと秘匿されたデータの区別は、言い換えれば、社会常識のようにみんなが知っている情報と、組織内だけに眠っている情報とがあって、秘匿されたデータを表に出すことで、さまざまなデータのつながりが生まれるかもしれないと示唆しているわけですよね。
早矢仕
おっしゃるとおりです。秘匿データが出てくると、これまでよりもデータ同士のネットワークが成長し、発展すると考えられます。ですから、データ市場を盛り上げたいのであれば、企業に対してオープンデータだけではなく秘匿データを市場に乗せる背中を押してあげることが第一歩になるだろうと思います。そこで研究では「あなたのデータが公開されたらいろいろなつながりが生まれるかもしれません」ということを示すかたちでサポートができたらいいなと思っています。
登坂泰斗(オズマピーアール株式会社)
ビジネスの現場でも、データが単一で価値を持つことは減ってきているように感じます。いくつかの掛け合わせのなかではじめてデータに価値が出てくるというケースが増えました。
他方、データをつなぐ際には、IDのような変数で紐付けることは難しくなってきています。デジタルマーケティングの領域では、Cookie情報を使ったデータ連携は実質的に不可能になってしまいました。
そんな状況のなかで、デジタル空間のデータだけではなく実空間上のリアルなデータも見つつ、データ同士の親密性を発見していくことが必要だと考えています。
早矢仕
親密性というのは、研究上は非常に難しい概念なんですよね。たとえば、SNSのネットワークを活用して人間関係を分析する場合、人間が持つさまざまなロールを考慮する必要があります。ある人は家にいたらお父さんだけれども、職場にいたら上司や部下になるといったように。複数のロールを持っているなかで、どのコンテキストにおいて誰と親密かを考えなければ、人間関係は分析できません。
私のようにデータをつなげる研究も同じで、ふたつのデータが親密でつながりやすいものかどうかを分析したい場合、それらが置かれているコンテキストを理解しなければならないのです。一見相性がいいデータ同士に思えても、実はあまり文脈を共有しておらず親密なものではなかったということがよくあります。
そういう意味では、今日お見せしたデータ同士のネットワークも、親密性を発見するためのスタート地点です。「もしかしたらこのつながりには意味があるかもしれない」という仮説を生むきっかけですね。
登坂
なるほど。
上島
人間関係でも、みんなと仲のいい人気者もいれば、あまり友達のいない人もいますよね。データにも同じようなことはありますか。
早矢仕
はい。先ほどお話ししたスーパーデータのように、どのデータともつながるようなものもあれば、もちろんその逆もあります。
先ほどお見せした図の端っこの方には、どこにもつながっていないかわいそうなデータがあります。これは変数が欠けていてまだほかのデータとの相性を見つけられないようなデータかもしれないし、スタンドアローンの工場のなかで取得され、使われているデータかもしれません。もしそのデータに含まれる変数が整理されたら、ほかのデータとつながっていき、新たな価値を発見できる可能性がありますね。
データ同士の価値あるつながりを見出すには
登坂
いまや取得できるデータはあまりにも膨大になっています。データ同士のネットワークが可視化されたとして、そこから仕事の現場で役立つデータを見出すためには、どのようなスキルや環境が必要でしょうか。
早矢仕
現場への応用を考えると、組織づくりが重要になるように思います。多くの組織では、最終的にビジネスの現場でデータを使う人やそれに基づいて意思決定する人と、データを設計する人や取得する人、分析する人は全員別々になっていますよね。そのため、最初にどのような仮説でデータがつくられたのかが共有されないままデータが使われています。
うまくデータを見つけて使っていくためには、やや理想論になりますが、データを設計する段階にかかわりつつ、その分析もでき、さらにビジネスの現場にも足を運ぶ人が必要だと思います。そのうえで、データが使われている泥臭い現場にナレッジを持っていったり、そこでちゃんとディスカッションしたりできるチームをつくっていくことが重要ではないでしょうか。
(後編に続く)
編集:瀬下翔太
協力:森実南
企画・制作:「データ流通市場の歩き方」編集部