人工知能とは正確には何か?

2022年5月18日

ツェリン・シゲィ・ドルジ

 日本でコンピュータ技術の分野で博士の学位を取得し、企業部門でデジタル変革を遂げる戦略と取組みを先導するの幅広い経験を持つ。彼は、2012年1月から2022年1月まで、ブータン初のITパークであるティンプー・テクノパークを成功に導く上で、重要な役割を果たしてきた。

人工知能と機械学習

 人工知能(AI)は、通常は人間の知能を必要とする問題解決の仕事を、情報処理装置(通常はコンピュータ)によって実行される際に利用される広い意味をもつ知能を表す用語です。また、このような処理装置の構築に関係する科学技術の分野を説明するためにも使用されます。

 一方、機械学習(ML:Machine Learning)は、人工知能の中の一分野です。 MLについては、ニューラルネットワークなどのさまざまなコンピューターアルゴリズムを使用して、コンピュータのソフトウェアが決定的な判断をするようにプログラム化されていなくても、これまでの過去のデータから自動的に学習し、より正しい答えを出せるような方法を見出します。 MLのデータを解析する技術については、教師あり学習(Supervised Learning)、教師なし学習(Unsupervised Learning)、強化学習(Reinforcement Learning)に分けることができます。

 今日、深層学習(Deep Learning)と呼ばれる別の機械学習の技術分野もあります。これは機械学習の中の一分野であり、ニューラルネットワークを使用して、人間の神経系に似た構造を持つさまざまな要因を分析します。人工知能は、機械学習、深層学習、その他のデータ解析手法を適用して、実際の問題を解決します。

教師あり学習、教師なし学習、強化学習、深層学習の間の比較

基 準 教師あり学習 教師なし学習 強化学習 深層学習
定 義 ラベルを付けたデータを使った学習 指導はなく、ラベルのないデータを使った訓練 環境と相互作用しながらの学習 人工神経ネットワークに基づく学習。ラベル付きデータまたは、ラベルなしデータを使用
データのタイプ ラベルのあるデータ ラベルのないデータ 事前に定義されたデータは不使用 ラベルのあるまたはないデータを使用
問題のタイプ 回帰問題、分類問題 合同、集団 市場開発、資料探査 コンピュータ画像解析、自然言語認識、機械翻訳、生体情報
アルゴリズム 線型回帰、論理的回帰、SVM、KNN、その他 K平均、C平均 Q学習、SARSA 人工神経ネットワーク
応用 リスク評価、文書分類、画像理解、予測販売 推奨システム、異常検出 自動車自動運転、ゲーム、健康管理 自動車自動運転、自然言語認識、生物情報額、医療画像解析

 

教師ありMLと教師なしML

 教師あり学習は、注釈付きデータセットとも呼ばれるラベル付きデータセットの使用に依存する機械学習の解析方法です。 これらのデータセットは、データを分類したり、結果を正確に予測したりするためのアルゴリズムをトレーニングまたは「監視」するように設計されています。

 これが簡単な例です。自動電子メールスパム識別子は、例として注釈付きのスパム電子メールを提供することによってトレーニングされます。次回、事前に送信された例と同様の電子メールのように見える場合は、すぐに電子メールをスパムフォルダに送信します。同様に、自動MRIスキャナーは、腫瘍やその他の医学的異常を識別するようにトレーニングできます。

 したがって、教師あり学習では、注釈付きまたはラベル付きの入力データと出力データが使用されますが、教師なし学習アルゴリズムでは使用されません。教師あり学習モデルは教師なし学習モデルよりも正確である傾向がありますが、データに適切なラベルを付けるには、事前に人間の介入が必要です。対照的に、教師なし学習モデルは、ラベルなしデータの固有の構造を発見するために独自に機能します。ただし、教師なし学習では、出力変数を検証するために人間の介入が必要になる場合があります。

 教師あり学習は、スパム検出、感情分析、天気予報、価格予測などに使用され、教師なし学習は、異常検出、推奨エンジン(提案、助言を生成するプログラムの基本部分)、顧客を演じる語り手、医療画像などに使用されます。

 

強化学習(RL

 RLアルゴリズムは、遭遇する環境に適応して、それ自体で環境に反応することを学習します。 開始状態と終了状態を持つ学習エージェント(問題解決を自動的に行うプログラム)を使用します。 エージェントはある状態から別の状態に移動し、成功すると報酬(感謝)を受け取りますが、失敗すると報酬や感謝を受け取りません。 このようにして、エージェントは環境から学習します。 教師あり学習にも教師なし学習にも基づいていません。 RLアルゴリズムは、ロボット工学、ゲームなどで使用されます。

 

MLのデータ注釈

 データ注釈(Data Annotation)は、機械学習モデルで予測したい結果を出力するためにデータにラベルを付けるプロセスです。 プロセスに従事する人々は、機械学習システムに認識させたい機能を備えたデータセットのマーキング(ラベル付け、タグ付け、転写、または処理)を行います。 たとえば、ティンプー・テクノパークのアイメリットテクノロジーズ (iMerit Technologies) では、従業員が農地の多数の写真に注釈を付けて、除草剤を噴霧するドローンやその他の機械が、作物の中から雑草を識別できるようにしています。 注釈付きデータは、注釈が付けられていないデータ内の同じ機能を識別するために、アルゴリズムを改善する機能を明らかにしています。 データ注釈は、教師あり学習と、教師あり学習を含むハイブリッドまたは半教師ありの機械学習モデルでも使用されます。

 

ティンプー・テクノパークでMLによって作成されたジョブ

 前述のように、教師あり機械学習では機械が学習できるようにするために、事前に人間がデータにラベルを付ける必要があります。データにラベルを付ける行為が、データ注釈ですが、MLやAIへの関心の高まりに伴い、近年、このデータ注釈の需要が高まり、データ注釈を提供する企業が数多く誕生しています。ティンプー・テクノパークに本拠を置き、米国に本社を置くFDI(外国直接投資)企業であるアイメリットテクノロジーズ は、この分野でよく知られている企業の1つです。

 アイメリットブータン (iMerit Bhutan) は、約130人の従業員からなるチームで2019年8月28日に立ち上げられました。現在、約250人の従業員に成長しています。彼らは、自然言語処理のためのテキストデータ、画像認識/分類のための画像データ、およびコンピュータビジョンのためのビデオデータなどに注釈を付けることを含む、データ注釈サービスに取り組んでいます。同社はサービスの100%を輸出しています。

 立ち上げの際、アイメリット社のマーケティングおよび戦略的事業開発担当副社長であるジャイ・ナタラジャン (Jai Natarajan) 氏は、次のように述べています。「私たちは世界中の国際的企業にデータサービスを提供しています。 これらの企業は、これらのデータを使用したテクノロジーによって、非常に難しい問題を解決しています。 この問題には、ドライバーなしで車を運転させる方法や、X線やMRIなどの医用画像から病気を自動的に検出する方法が含まれます。 別の例としては、衛星画像から森林の汚染と破壊を見つけることも挙げられます」

 同様に、ティンプー・テクノパークに最初に参入した大手企業の1つであるスキャンカフェ(ScanCafe)は、2013年以来、写真編集と写真集のデザインサービスに数百人のブータンの若者を雇用しており、そのすべての商品がブータン国外の顧客に輸出されています。 2016年から2017年のピーク時には、約500人の従業員を雇用していました。しかし今日、自動化が進んだことで、従業員の数は減少しました。人間の写真編集者や写真集の設計者が提供した例に基づいて、機械学習とAIによってより優れた自動化が実現されます。

 

ブータンにとって有利な状況

 AIとMLは、カスタマーサービスやマーケティングから機械翻訳や自動運転車まで、さまざまな分野でアプリケーションを見つけることのできるホットなIT技術分野です。 日常業務の自動化など、ブータンで直面するさまざまな問題を解決するために、それを使用するあらゆる方法を調査検討にすることができます。 大量のテキストデータを処理する必要のあるオフィスでは、テキストの分類や要約などに使用できます。さらに、この分野での研究開発を促進することに遅すぎることはありません。 データ注釈サービスを提供し、若者の雇用機会を増やす可能性もあります。

 

Joomla templates by a4joomla