自動テキストの概要 – リンカーン、自動概要の紹介 – データブログ

データ、人工知能、私のプロジェクトに関するブログ

自動概要は、長いテキスト、または一連のテキストを撮影し、ほとんどの情報を含むはるかに短いテキストを自動的に生成することです。. 単純 ? それほどではありません. まず、どの情報が本当に重要であるかに同意する必要があります. 次に、私たちはそれらを適切に抽出し、それらをすべて文法的なテキストで、そして人間の介入なしに再編成できる必要があります. そして、それは可能な要約の多数のバリエーションを頼りにしていません !

自動テキストの概要

テクスチャの収集とストレージの爆発により、この質量から関連情報を分析および抽出する必要性はますます存在します.

さらに、自動自然言語処理(TALN)の深い学習モデルのブームは、運用上の問題でのテキストデータの使用を促進しました. 自動テキストの概要は、回答質問、類似性分析、ドキュメントの分類、およびTALNにリンクされたその他のタスクと同じように、これらの問題の一部です.

この文脈において、 ラボイノベーション De Lincolnは、自動テキストの概要で作業を実行することを決定しました. これらの作品により、言語で利用可能な自動概要モデルのベンチマークを確立することが可能になりました フランス語, 私たち自身のモデルを引き起こし、最終的にそれを生産にするために.

modelモデルトレーニング

世界自動概要

データ

作業を開始する前に、最初に自動概要モデルを学習するためのデータベースを構築する必要がありました. いくつかのフランスのニュースサイトからプレスアイテムを回復しました. このベースには〜60kの記事が含まれており、継続的に更新されています.

最先端の

自動要約アルゴリズムは、概要の2つのカテゴリに分けることができます 抽出 と要約 抽象的. フレームの中 抽出, 要約は、概要中にテキストから抽出された文から構築されます 抽象的 新しい文から生成されます.

自動概要モデルは英語では非常に一般的ですが、フランス語でははるかに少ないです.

メトリック

モデルの評価には、次のメトリックを使用しました。

赤 : 間違いなく、概要タスクで最も頻繁に報告されている測定値は、要点評価のためのリコール指向の研究(Lin、2004)が評価された要約とヒューマン参照の概要の間に同様のNグラムの数を計算します.

流星: 明示的な順序付けによる翻訳の評価のためのメトリック (Banerjee and Lavie、2005)は、自動翻訳結果を評価するために設計されました. これは、正確さの高調波平均とユニグラムのリコールに基づいており、リコールは精度よりも大きい重みを持っています. Meteorは、自動概要出版物でよく使用されます(et alを参照してください., 2017;ドン等., 2019)、赤に加えて.

ノベルティ: いくつかの抽象的なモデルは抽出に多すぎることに気づきました(et alを参照してください., 2017; Krysci ’Nski et al.’、2018). したがって、生成された要約内で生成された新しいn-Gramsの割合を測定することが一般的になりました.

出典:mlsumペーパーからの翻訳[2].

モデルの展開

モデルトレーニングには、モデルのトレーニング、監視、展開のための完全な環境を提供するCloud Azure MLサービスを使用しました。.

自動概要モデル

「ジョブ」の開始からモデルの展開まで、プログラムの方法でAzureml環境全体を管理できるようにするPython SDKをより正確に使用しました。.

ただし、コンテナ化されたフラスコアプリケーションで最終モデルをカプセル化し、KubernetesクラスターにCI/CDパイプラインを介して展開しました

結果

まず第一に、私たちはいくつかの試みを行い、モデルの開始時に与えられたトークンの数(512または1024)とさまざまなアーキテクチャの数を変化させて、10kの記事でモデルをリードしました。.

最初の観察:赤と流星のメトリックは、モデルのパフォーマンス評価にはあまり適していないと思われます. したがって、斬新なスコアのみに基づいて比較することを選択し、選択しました 建築 より抽象的な要約を好む.

700Kアイテムでモデルのトレーニングをプッシュした後、結果を大幅に改善し、以下に見つける最初のバージョンを検証しました.

注意点

パフォーマンスを超えて、この実験により、いくつかを強調することができました 境界 自動概要:

現在、タイプモデルの入力のテキストのサイズ 変身 GPUを記憶する容量によって制限されます. メモリのコストは入力としてテキストのサイズを備えた2次であり、これは、要約されるテキストが十分に長くなる自動概要のタスクの本当の問題を提起します.

テキスト生成タスクを評価するために関連するメトリックを見つけることは非常に困難です.

気をつけて 抽出器の重量 :また、それ自体のデータに関連するいくつかの問題に遭遇しました. 主な問題は、記事の記事がしばしば言い換えまたは記事の最初の文の複製でさえあったことです. これは、記事の最初の文章を単に返すだけで、モデルが抽象的であるよりも抽出的であることを奨励することの結果でした. したがって、この種のバイアスを回避するために問題を提起する記事を削除することにより、キュレーション作業を行う必要がありました.

データ、人工知能、私のプロジェクトに関するブログ.

自動概要は、長いテキスト、または一連のテキストを撮影し、ほとんどの情報を含むはるかに短いテキストを自動的に生成することです。. 単純 ? それほどではありません. まず、どの情報が本当に重要であるかに同意する必要があります. 次に、私たちはそれらを適切に抽出し、それらをすべて文法的なテキストで、そして人間の介入なしに再編成できる必要があります. そして、それは可能な要約の多数のバリエーションを頼りにしていません !

私は博士号の直前にこのエキサイティングなテーマに約1年間働くことができました。したがって、この投稿は、このテーマに没頭し、ドメインの最新の革新を撮影する機会です。.

このテーマの概要を作成して、AIとニューラルネットワークの2種類のシステムと、むしろ最適な抽出に焦点を合わせているものの2種類のシステムにわずかに詳細に住む前に、存在するさまざまなタイプの要約を説明することで作成しましょう。情報.

さまざまな種類の概要

要約について話すとき、私たちはしばしば本の裏表紙や映画の脚本の説明について考えます. 一般的に、これがまさに古典的な自動概要のツールを求めるものである場合、彼らは終わりを台無しにすることを避けます:陰謀を伝えるために、要約がエッセンシャルを知るのに十分かもしれません. ここにあります モノドキュメントの概要, つまり、単一のドキュメント(映画、本、記事、…)のみを要約するだけです。.

それどころか、私たちはaを望むことができます マルチドキュメンタリーの要約, 報道レビューのコンテキストでより頻繁に会うこと:さまざまな報道機関が報告した最も重要な情報の要約が必要です.

要約しようとするデータの種類について決定したら、モノラルまたはマルチドキュメンタリーを要約しようとすると、2つのアプローチから選択できます。抽出, これは、要約を作成するためにそれを元に戻す前に情報を抽出することで構成されています。 原動力, これは、より流動的でより自由な要約を持つために、元々ドキュメントには表示されない新しい文を作成することで構成されています.

これらの基準に加えて、さまざまなスタイルの要約がありますが、ここではアプローチしません。新しいドキュメントに表示される情報を要約し、これまでにリストされていなかった要約を更新し、正確な角度の採用からなる要約を要約しましたユーザーから与えられた、..

AIおよびニューラルネットワークは、自動要約に革命をもたらします

2010年代半ばまで、概要のほとんどは抽出的でした. ただし、これらのアルゴリズムには、文章全体の選択と抽出から、テンプレートと呼ばれる事前に準備された穴があるテキストで再調整された正確な情報の抽出に至るまで、大きな多様性がすでに存在していました。. ニューラルネットワークに基づいた新しいアプローチの到着は、状況を大幅に変えました. これらのアルゴリズムは、このGPTデモでできることのように、文法的および流動的なテキストを生成するために、以前のアルゴリズムよりもはるかに効果的です.

ただし、ニューラルネットワークでは、トレーニングするために大量のデータを必要とし、比較的故障していません. それらは、真実性がほとんど重要ではないが、報道記事の要約で問題となる矛盾した、または単に誤った情報を強く生成する可能性があるコメントを生成するために完全に機能します。. 多くの研究記事は、これらのニューラルネットワークの「幻覚」に興味があります.

ハイブリッドツールの例:Potara

自動概要は、私が興味を持った最初の研究科目であり、マスター中にマルチドキュメントアプローチの抽出/生成による概要のハイブリッドシステムを開発する機会がありました。同じ主題の.

アイデアは、古典的な抽出、つまり最も重要な文を特定し、それらを組み立てて要約を生成することでした。. このアプローチの問題は、最も重要な文がしばしばさらに改善できることです. たとえば、大統領の避難について言えば、「エマニュエル・マクロンはアメリカのカウンターパートと議論し、エマニュエル・マクロンがジョー・バイデンと議論し、経済について議論した」というフレーズを改善することができました。. ジャーナリストはリハーサルを慎重に避けて、この種の現象に頻繁に直面することに気づきます.

この欠陥を克服するために、さまざまな文書に存在する同様の文を特定し、より良い文を取得するためにそれらをマージしようとすることができます. ANSI、次の2つの文章から:

  • エマニュエル・マクロンはワシントンで彼のアメリカのカウンターパートに会い、長々と経済学について話しました.
  • フランスの大統領はジョー・バイデンに会い、経済学について議論しました.

短くて有益な文を作成できます。

  • エマニュエル・マクロンはワシントンでジョー・バイデンに会い、経済学について話し合った.

この結果を達成するにはいくつかの手順が必要です。同様の文章を見つけ、最高の融合を見つけ、融合が元の文よりもはるかに優れていることを確認する. それらは多くのテクノロジーに参加しています:ニューラルネットワークを備えたWord2同様の文、それらをマージするための共同接続グラフ、最高の合併を選択するためのILP最適化.

あなたがもっと見たいなら、ポタラはオープンソースですが、しばらく維持されていません. このプロジェクトは、私がリリースされたときに特にショーケースとして機能していたため、ドキュメント、テスト、継続的な統合、Pypiでの展開などがありました。

良い自動概要は何ですか ?

特定の基準が明白で比較的単純であると思われる場合(たとえば文の文法性)、他の基準ははるかに複雑です. テキストの最も重要な情報は、それ自体がすでに非常に主観的なタスクであることを決定する. 流動性を評価する、使用された単語の正しい選択は、出版作業に戻り、要約がとることができる政治的指向について話さないようにしましょう !

ニューラルネットワークに基づいた新しい生成モデルは、映画評論家の生成に関して求められる効果であるが、大統領候補のプログラムについて話すときははるかに少ない場合、軽jor的な判断または予選(またはユーザーフレンドリー)を導入する可能性があります。 !

したがって、自動概要は研究において非常に積極的な主題であり続けており、特にアルゴリズムの結果を導く能力に関しては、特定の感情、特定のスタイル、与えられた政治的着色に向けて、. 業界では、彼は非常に具体的な幹部に入り始めました(たとえば、会議の要約).

大統領2022:あなたのデータに !

2022年の大統領選挙で実施されるデータプロジェクトの3つの例.