ビッグデータ:それらが何であるか、そしてなぜ我々はそれらなしでは実行できないのか

(へ アントニオヴェッキオ)
27/02/19

2009 年に新型インフルエンザ H1N1 株が発見されたとき、米国では通常の監視および観察手順が開始され、地域の健康管理予防センターによるすべての症例の報告が規定されました。

広くテストされているこの手順には限界がありました。それは、偶発的な状況に比べて常に XNUMX 週間遅れてウイルスの発生が進むという全体像を概説しました。

同時期の雑誌では、 自然 一部の Google エンジニアは、一般的に驚きと信じられないことに、ウェブ上で使用されているキーワードのみに基づいて H1N1 の地理的広がりを取得し、さらには予測できると主張した記事を発表しました。

具体的には、マウンテン ビューの専門家は、米国のユーザーがネット上で最もよく使用する 50 万の単語から始めて、地域の保健センターから報告された地域で最も使用される単語を特定し、管理していた 450 億 45 万の異なる数学モデルをそれらの単語に適用しました。 XNUMX のキーワードとウイルスの拡大との相関関係を強調します。

事実はこのニュースを裏付け、本質的に適切な計算能力を備えたマシンで処理される(膨大な)量のデータに頼る、純粋に数学的な方法でウイルスの蔓延を予測できることが初めて証明された。

このストーリーは、デジタル革命がどれほど進んでいるかをさらに証明しています。 情報技術 (IT) は私たちの時代に革命をもたらしました。 そこから始まった「第XNUMX次産業革命」と呼ばれる画期的な変化は、これまでにない複数の分野に投資し、前例のない広さと速度で発展しています。

人工知能 (AI)、ロボット工学、バイオテクノロジー、ナノテクノロジー、モノのインターネット (IoT)、自動運転、量子コンピューティングは、継続的な進歩の時期を迎えている分野のほんの一部であり、その成果の多様性と奥深さでは並外れたものとなっています。その開発スピードのおかげで。

私たちはよく IT の頭字語テクノロジーの T に焦点を当てます。つまり、法律に従って 18 か月ごとにコンピューティング能力を XNUMX 倍にすることができる、ますます強力になるマシンのことです。とムーア氏は述べています。1 - これには科学的価値はありませんが、それでも 50 年以上にわたる現実の観察によって裏付けられています。

16 年にアポロ 1972 号を月にもたらしたコンピューターは、今日私たちがポケットに入れているスマートフォンよりもはるかに低消費電力でした。 そして、シャトル エンデバーの 2 台の車載コンピューターでさえ、合計 5 MB の RAM しか搭載していませんでした。 さらなる証拠として、80 年代に使用されていた XNUMX 台のデスクトップ コンピューターの全体的な能力は、現在のタブレットの能力よりも小さいです。

そうは言っても、これまで以上に強力なマシンから得られる重要性を損なうことなく、今日の真の富はデータ、あるいはむしろ、私たちのクリック、ツイート、購入の好みによって瞬時に生成される何十億もの情報から得られるビッグデータにあります。 。

2018 年の第 2.19 四半期、Facebook のアクティブ ユーザー数は XNUMX 億 XNUMX 千万人でした2、彼らはネットワーク内の他の 200 億人の個人と交流しました。これは地球人口の 20% を超える数字です。 同年、YouTube のユーザー数は XNUMX 億人、次に WhatsApp のユーザー数が XNUMX 億人でした。

無尽蔵のデータ源を生み出す重要な数字。

一方、ウェブは、何百万もの人々が毎日(イタリアでは、6 年の時点で 2018 日平均 XNUMX 時間)生活の重要な部分を過ごし、意見、感情、喜び、悲しみ、購入の好みなどを交換する環境です。すぐ。

「データ化」できる個々の行動のセット、つまり 記録され、分析され、再整理された 継続的にデータを生成する科学的基準に従っています。

XNUMX つの例は、何よりも、私たちが探している結果が情報の中にどのように隠されているかについてのアイデアを与えてくれます。

2006 年、AoL ポータル (Americaonline) は学者や研究者向けに、20 万 675 人のユーザーが 4417749 か月の間に完了した XNUMX 万件の「クエリ」のデータベースを公開しました。保護の理由から事前に匿名化して公開しました。 、さまざまな立場のユーザーが関与しています。 しかし、数日以内に、ジョージア州の未亡人テルマ・アーノルドさん(XNUMX)が、当然のことながらユーザー番号XNUMXに関連付けられ、論争を引き起こし、AoL従業員XNUMX人の解雇につながった。

そして、Netflixが約6万人の匿名ユーザーの好みを公開したときでさえ、中西部の女性が名前と住所で認識されるまでにそれほど時間はかかりませんでした。 テキサス大学の研究者らは後に、500 本の映画の中から XNUMX 本だけを選択するだけでチャンネル ユーザーを認識できることを実証しました。

しかし、それはウェブだけではありません。私たちの街の通りや広場のいたるところにあるカメラ、そして私たちが残した痕跡が特別な顔認識ソフトウェア (数年前、英国の新聞は、ディストピア本「200」の著者ジョージ・オーウェルが住んでいた家から1984メートル以内に30台以上のカメラがあったことを発見した。

Viktor Schonberger と Keneth Cukier の基礎研究によると、3 (この記事の主な情報源として使用)、2012 年に作成されたデータは非常に多かったので、CD-ROM にロードした場合は、月に到達できる XNUMX つの平行なスタックを形成することができましたが、紙に印刷した場合は、月に到達することができたでしょう。アメリカ全土をXNUMX回カバーします。

これは約 6 年前の話であり、その間、毎年生成されるデータはさらに XNUMX 倍になっていることに注意してください (平均すると、XNUMX 年ごとに XNUMX 倍になります)。

データは私たちの時代の黒い金を構成します。データは、最初に収集された目的とは異なる量と用途の多さのため、非常に貴重な価値があります。 実際、収集時にはまだ知られていなかった目的で情報をネット上に提供することが増えています。

それらは AI の新しいフロンティアに栄養を与え、その最初の燃料を構成します。コンピュータが進歩し、外部現実を「認識」し始めるのは、それらのおかげです。

ロボットを通じて自律的な行動を開始します4、外部で収集および分析された状況データに基づいて決定されます(受信したプログラムではありません)。

しかし、ビッグデータはどのように使用されるのでしょうか? 数学的手法、「アルゴリズム」を適用することにより、特定の現象について、その瞬間に発見したいことをベースに精緻化されます。

これらのアルゴリズムは、大量のデータを活用することによって、調査された要素間の特定の関係が繰り返される可能性として理解される「相関関係」を確認できるようにします。

これらの関連性がまったくの偶然によって現れるという事実は、不正確さと不正確さは統計的に明らかであるため、研究自体の妥当性を損なうものではありません。」修理  利用可能なデータ量に比例します。

因果関係の原理に最大限の敬意を表しますが、スモールデータの時代には、研究対象の特定分野の「専門家」が実施した、利用可能な(限られた)要素の慎重な分析に基づいて理解が行われていた時代には、この原理は問題ありませんでした。

ビッグデータの時代では、現象の理解は、従来の専門家ではなく、プログラマー、数学者、統計学者を合わせたような「データサイエンティスト」の助けを借りて達成されます。

実際、真実はビッグ データの中にあります。当然のことながら、限られた量のデータでは満足のいく (確率的な) 結果が得られないアルゴリズムは、より大きな数に適用すると驚異的に機能します。

「Google Translator」は、情報量と組み合わせた確率的基準を翻訳などの複雑な問題を解決するためにどのように適用できるかを示す明確な例を提供します。

実際、このプログラムは、文法規則を適用したり記憶した辞書に頼ったりすることによって翻訳するのではなく、与えられた文書の内容が文法構造と単語、動詞、形容詞の意味に従って翻訳できる確率に基づいて翻訳します。メモリ内にはあらゆる言語の数十億の文書が存在します。

こうして、このプログラムは Microsoft との競争に勝ち、すぐに世界で最もよく使われる翻訳ツールになりました。

このような状況では、すでに述べたように、計算能力はプロセスの一部のみを表し、最も重要なプロセスや、時々使用されるアルゴリズムさえも表しません。 決定要因は依然として利用可能なデータの数です。データが多ければ多いほど、探しているものが見つかる可能性が高くなります。

ビッグデータは第 XNUMX 次産業革命に「翼を与え」、世界をより深く理解できるようにします。 それらを管理し、最大限に活用する方法を学ぶことが私たちを待っている課題です。

3Viktor Schonberger と Keneth Cukier によるビッグ データ - Garzanti 2013

4システムが主に決定論的な方法で動作し、同じ入力を受けたときに常に同じように反応する場合、システムは「自動化されている」と言われます。 一方、「自律」システムは確率論に基づいて推論し、一連の入力を受け取った後、最良の答えを処理します。 自動化システムで起こることとは異なり、自律システムは、同じ入力が与えられた場合に、異なる答えを生成する可能性があります。

写真: エミリオ・ラブラドール/NASA