データベース、情報、知識

(へ ジョルジョ・ジャチント)
04/07/24

人間が知識を体系化し始めて以来、周囲の現実を分類し、定義する必要がありました。これを行うために、彼は周囲のすべてを説明するための定量的な方法を導入しました。

データベースは、関心のある現実の記述を保存するだけでなく、何よりも情報を抽出するために関連付けられた方法でデータを取得することを簡単かつ効率的にすることを目的とした IT ツールです。

簡単な例を見てみましょう。スーパーマーケットで販売されている商品は、ブランド、商品名、説明、価格で説明できます。常連客は、個人データ、家族構成、学歴などに関連付けられた「ポイントカード」を持っている場合があります。スーパーマーケットの各レシートは、特定の日時に購入した商品と顧客を結びつけます。これらがデータです。

しかし、どのような情報を抽出できるのでしょうか? たとえば、最も多くの量のビールが販売される曜日は何ですか、または少なくとも 1 人のメンバーが大学の学位を持っている家族が購入する食品の種類は何ですか。

特定の現実について保存する詳細が増えるほど、システムに問い合わせて貴重な情報を抽出できる可能性が高くなります。英語では、システムに疑問を呈する概念を表すのに使用される動詞は次のとおりです。 クエリー これは実際にはラテン語の動詞を語源としています。 クエーロ (何かを手に入れるように頼む)。幅広いクエリに使用できる可能性のあるデータベースを作成する秘訣は、現実の記述データをアトミックで非集約的な形式で表現することです。

前の例では、製品説明にたとえばなどの詳細を挿入するのは良い方法ではありません。製品の重量または一緒に梱包されたパッケージの数。明示的にカタログ化されていないデータは、内容の解釈が必要となるため、その処理が非常に複雑になります。

データのカタログ化を直感的に行うために、テーブル構造が使用されます。この構造では、対象となるエンティティが行 (販売中の製品、患者など) で表され、その特性が列 (ブランド、製品名、価格など) で表されます。 、など)。テーブルは、異なるエンティティ間の関係を表すこともできます。たとえば、車両の所有関係を表す必要がある場合、各行に所有者の税コードと車両のナンバー プレート、つまり所有者と車両を一意に識別できる 2 つの特徴を示す表が必要になるだけです。 。

これまでに説明したものは、Edgar Codd (IBM) によって提案されたリレーショナル データ モデルです。1) これは、システムにクエリを実行するために開発された言語 (SQL、Structured Query Language の頭字語と呼ばれることもありますが、実際にはこれが標準に与えられた名前です) の単純さのおかげでもあり、依然としてデータ表現の標準を表しています。 IBM が使用する商品名 SEQUEL と区別するための言語です)。

リレーショナル データベースに保存された大量の詳細情報を利用できるため、組織の監視、管理、戦略計画に役立つ情報を抽出できます。たとえば、商業施設の個々の領収書や学生の利益評価を集計することで、売上の全体的な傾向 (その日の時間帯別、顧客のタイプ別など) をそれぞれ研究することができます。学生のキャリア(学期ごと、学習コースごとの大学試験成績など)。これらの操作は次のように実行されます。 データウェアハウス、データが集合形式で保存されるアーカイブ。データ ウェアハウスで使用されるデータ分析ツールは次のように呼ばれます。 ビジネス·インテリジェンス いくつかの統計的および統計的手法が含まれています 機械学習。この用語は過去にも使われていました データマイニング データが価値を抽出するための鉱山であることを示しています。

リレーショナル モデルを使用すると、データを効率的に保存し、さまざまな種類の相関関係を実行できるようになりますが、情報が個別のテーブルに分離されるため、結果を生成するためにストレージ システムから複数の読み取り操作が必要になるため、本質的な処理速度が遅くなります。 NoSQL モデルは過去 20 年間で普及してきた2 (SQL に限らず) 集計の保存に特化しています。電子商取引分野の例で概念を明確にできます。製品を検索し、さまざまな代替品を比較するときに、必要な特性を選択することができます。これは、製品の特性を構造化された方法で保存するリレーショナル モデルの典型的な機能です。たとえば、テレビの場合、画面のサイズ、解像度、特定の接続ポートの有無などを選択できます。購入を続行すると、割引コードまたはその日のオファーを使用できるようになります。これらすべての詳細は、領収書または請求書に相当する NoSQL データベースの 1 つの要素に保存されます。実際、販売された製品のさまざまなバージョン、プロモーション キャンペーン、割引コードの履歴をリレーショナル モデルを通じて記憶するのは面倒です。

したがって、現代の組織では、それぞれが特定の目的に特化したさまざまなデータベースを使用しています。つまり、特定の現実のすべての詳細を保存するリレーショナル データベースと、毎回情報を関連付けることなく簡単に取得できる集計を表す NoSQL データベースです。したがって、私たちは多言語永続記憶についてよく話します。3.

データを保存して処理する必要性は、一般的な用語でよく呼ばれるさまざまなタイプのセンサーの開発のおかげで、今日劇的に増加しています。 モノのインターネット。私たちの日常生活では、おそらくウェアラブル デバイスを使用して、活動のいくつかのパラメーターを監視します。多くの乗り物 (車、スクーター、自転車など) では、移動ルートや一部のコンポーネントの摩耗を記憶できます。我が家には家庭用の公共料金メーターがあります スマート なぜなら、電気、ガス、水道の消費量に関する情報を一定の時間間隔で通信するからです。このデータは、異常な状況や危険な状況を即座に特定するためにも関連しますが、何よりも傾向や習慣を特定するために集約すると役立ちます。

この大量のデータは、構造化および非構造化にかかわらず、さまざまなモデルやテクノロジー (多くの場合、 データレイク)、近年、プロの人物としての地位を確立しました。 データサイエンティストつまり、作成からフィルタリング、クリーニング、集計に至るまでのデータ チェーンのスペシャリストであり、情報を抽出できるクエリ技術に到達します。

私たちはいわゆる情報化社会に生きています。4ここでは、データ間のストレージ、表現、相関関係が真の富を構成します。 2006 年にこの格言が有名になったのは偶然ではありません。 「データは新しい石油だ」5、そして最近ではそれ 「人工知能は新しい電気です」6.

1https://www.ibm.com/history/edgar-codd

2https://sheinin.github.io/nosql-database.org/

3https://martinfowler.com/articles/nosqlKeyPoints.html

4https://www.manuelcastells.info/en/

5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby

6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity