TIS株式会社:機械学習で感情解析を行うためのデータセット「chABSA-dataset」を無償公開

TIS株式会社:機械学習で感情解析を行うためのデータセット「chABSA-dataset」を無償公開


TIS株式会社データセットを無償公開

chABSA-datasetを無償提供

IT技術での戦略を、企業向けに提供する「TIS株式会社」が、機械学習で感情解析を行うためのデータセットの無償公開すると発表した。



TIS株式会社が提供する「chABSA-dataset」は、上場企業の有価証券報告書(2016年度)をベースに作成されたデータセットである。

各文に対してネガティブ/ポジティブの感情分類だけでなく、「何が」ネガティブ/ポジティブなのかという観点を表す情報が含まれる。

こうした観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析が実現できるとしている。

「chABSA-dataset」データセット公開ページ
https://github.com/chakki-works/chABSA-dataset

 

「観点要約」の重要性

TISは、機械学習、自然言語処理を用いた業務の生産性向上について研究、開発を行っている。

その取り組みの一つとして、機械学習、自然言語処理を用いて、観点に沿って情報をまとめる「観点要約」に取り組んでいるようだ。
「観点要約」とは、例えば議事録であれば決定事項やTodoといった特定の「観点」に沿い文書をまとめることだ。

文章から情報を抽出・要約する際には、まとめられた文書が「どれだけ短いか」という点より「必要な情報が抜けていないか」という点が重視される。

機械学習・自然言語処理によって「指定されたポイントを押さえて情報をまとめる」ということを実現するには「観点要約」が欠かせない技術となる。

 

自然言語処理・機械学習への取り組みと今後の展開

TISは、2017年4月にAI・ロボット分野における専門組織「AIサービス事業部」を立ち上げた。

AIサービス事業部では、機械学習・自然言語処理などを中心にAIに関する技術、知識と、長年のシステム構築、運用の実績で培った企業の業務プロセス、システムの理解を組み合せ、課題解決に向けたAI活用の各種ソリューションサービスを提供している。



データが増え続ける中で、重要なデータの見逃しは許されない、といったビジネス課題を解決すべく、TISでは「観点要約」の研究開発を進めている。

「観点要約」では、ユーザーの指示する様々な「観点」を理解し、それに沿い文書をまとめることが必要になる。

こうした柔軟な解析を実現するためには、自然言語処理における「転移学習」が有力な技術であるとTISでは考えているようだ。

TIS株式会社は「観点要約」以外でも、「転移学習」を用い少量のデータでカスタマイズ可能な自然言語処理の機能を今後開発していく予定だ。