「非構造化データの構造化」であらゆるビッグデータをカタログ化し、新たな示唆の獲得を導くデータレイク/データウェアハウス『AirLake（エアーレイク）』を12月中旬より提供開始

データサイエンスで企業と社会の課題を解決する株式会社DATAFLUCT（本社所在地：東京都渋谷区、代表取締役：久米村隼人）は、社内に散在するデータや外部のオープンデータの集約のほか、非構造化データ※1の構造化などの前処理を簡単に実行しカタログ化するデータレイク/データウェアハウス『AirLake（エアーレイク）※2』の提供を12月中旬より開始します。

本サービスの利用を通じて、社内外の様々なデータを分析しやすい形に変換・加工し蓄積することで、良質なデータを基にした効果的なデータ活用を促進します。また、これまで組み合わせる機会のなかった非構造化データなどの多種多様なデータを掛け合わせられる環境を整え、新たなインサイトの理解や課題の解決につなげます。
※1 画像や動画、音声、文書など、そのままでは定型的に扱えないデータ。
※2 特許出願中。

■「非構造化データ」に期待が集まるも、取り扱いの難易度は高い

近年、様々な産業におけるDXの推進の一環として「データ活用」のニーズが高まっています。データを用いて現状を見える化して業務の効率化を図ったり、発注業務の自動化を実現して生産性を向上させたり、課題の解決や新たな価値の創出につなげる企業も多く見られます。
データ活用の中でも現在とくに注目されているものが、画像や動画、音声、テキストなどの「非構造化データ」です。企業内のデータの約8割を占めているといわれている非構造化データは、新たな示唆の獲得や業務の新たな仕組みづくりの材料としての利用価値に期待が集まっています。
非構造化データはそのままの状態では活用できません。画像の場合、それが何を示しているかの情報を付与しなければならないほか、音声はテキスト化、Web上の文章はテキストからHTMLタグなどのノイズを除去するなど、対象データごとに適切な前処理を施さなければなりません。しかし、多種多様な前処理のノウハウをもつデータサイエンスに通ずる人材は限られる上に、外部に依頼する場合は大きなコストがかかることから、非構造化データを活用する難易度は高く、上手く活用できている企業は多くありません。

■ Society5.0時代のデータ基盤を目指す『AirLake』

取り扱いの難しい非構造化データを、空気を吸うように当たり前に活用できることを目指して開発した『AirLake』は、当社の掲げる「マルチモーダル※3データプラットフォーム構想※4」における主軸サービスです。高度な技術を有する企業と協業し、活用しているAIエンジンの精度が継続的に向上するよう進化していく開発体制を敷いています。常に高い精度でデータを活用できる仕組みを比較的安価で提供し、世界中の非構造データが『AirLake』を通じて活用されること、そして『AirLake』がSociety5.0時代のデータ基盤となることを目指します。
※3 画像や動画、音声、文書などの異なる様式のデータを統合的に処理すること。
※4 構造化・非構造化を問わずビッグデータをカタログ化し、ノーコード、エンドツーエンドで活用できる環境を提供する構想。詳細は、同日に発表したプレスリリース（https://datafluct.com/release/1718/）をご参照ください。

■『AirLake』の特長

1．非構造化データを簡単に加工できるデータ基盤テンプレートを搭載

『AirLake』のデータ基盤テンプレートによって、データサイエンティストやエンジニアがいなくてもノーコードでアノテーション※5の実装が可能になり、非構造化データを構造化データへ簡単に変換・加工できます。本機能によってコストと工数を大幅に削減できるほか、これまでにないデータ同士の組み合わせから新たな洞察を得られる環境を整備できます。
＜取扱い可能な主な非構造化データ※6＞

※5 データに対して関連する情報タグ（メタデータ）を付与すること。
※6 一部開発中。今後も順次ニーズに合わせた非構造化データに対応する予定です。現在の対応状況についてはお問い合わせください。

2．データの形式や社内外問わず、収集・管理が容易

様々なETLツールやVPN、APIといったコネクタを搭載し、社内・社外、構造化・非構造化を問わずどこからでも必要なデータを収集できます。また、収集したデータはカタログ化され、一元管理できます。堅牢なセキュリティにより、データごとに適切なアクセス権を付与することも可能です。

3．データ基盤の構築に必要な工数と費用を削減

PaaSとして提供するため、構築に伴う自社での設計や開発、テストの必要なしに迅速に導入いただけます。また、開発ベンダーによる大規模なインテグレーションも不要なため、初期コストと工数を従来よりも抑えられます。

4．当社の他サービスとシームレスな連携が可能

機械学習に必要な工程を一括で実行・管理・運用できるノーコードのエンドツーエンド機械学習プラットフォーム『DATAFLUCT cloud terminal.』やBIツールなど、当社の提供する各種分析系サービスとシームレスに連携できます。収集・加工・蓄積したデータを、最大限に活用できる環境をご用意します。なお、他社のデータサイエンスツール、AutoMLツール、BIツールにもご活用いただけます。

■ 解決できる課題と期待できる効果

本サービスは、データの収集・加工・蓄積を通じて、効率的な情報検索体制やデータから新たな洞察を得られる環境を提供します。

〔活用シーン1：文書検索の効率化〕

抱えている課題
社内で数多くの論文やドキュメントをpdf形式やword形式で保有しているが、一元管理できていない。論文・ドキュメントを探す際にファイル名で当たりをつけてからその中身までを確認しないと見つけられず、時間を要する。そのため、情報を探し出すには多くの関係者とコミュニケーションを交わさなければならないこともある。
活用法
『AirLake』に全ての論文とドキュメントファイルをインポート。情報探索型のテンプレートを利用し、自動的にファイルを分析してメタデータを付与し、活用できる形式に変換してから蓄積する。
効果
情報を探し出すやすくなり、業務効率が飛躍的に向上。他部門とのコミュニケーションも不要となり、全社的な作業工数の削減が実現。
データの種類
論文データ、ドキュメントデータ

〔活用シーン2：音声から感情を分析〕

抱えている課題
・営業の受注確率を向上させるために営業担当者の会話スキルを可視化し、適切なアドバイスを若手育成に活かしたい。
・コールセンター業務で適切なクレーム対応ができず顧客満足度を下げてしまう課題を解決したい。
・蓄積した音声データの中から欲しいデータを検索する時間を短縮したい。
活用法
『AirLake』でテンプレートを利用して音声データを構造化し、可視化・検索できるようにする。また、機械学習により音声データの特徴を読み取ることで、話し手の感情を分析し活用する。
効果
個々の感覚や経験で取り組んでいた業務が客観的な数字として可視化できるようになり、適切なアドバイスや対応が可能になった。
データの種類
音声データ、動画データ

■ 料金プラン

400,000円/月～（税別）
※上記の基本料金400,000円のほか、ストレージやトランザクション（それぞれ1TB以上から発生）の利用費、保守運用費、オプション利用費が追加されます。

本件に関するお問い合わせ
株式会社DATAFLUCT
Mail：info@datafluct.com