タグ: nlp

12月 29, 2020 グレゴリー・エリアス コメントはありません

チュートリアルELECTRAをゼロからスペイン語用に事前学習する方法 原文:Skim AIの機械学習研究者、Chris Tran.はじめに この記事では、自然言語処理ベンチマークで最先端の結果を達成するために、Transformer事前学習メソッドファミリーのもう一つのメンバーであるELECTRAをスペイン語用に事前学習する方法について説明します。これは、さまざまなユースケースのためのスペイン語のカスタム BERT 言語モデルのトレーニングに関するシリーズのパート III です:Part I: How to Train a RoBERTa Language Model for Spanish from Scratch Part II: How to Train a SpanBERTa Spanish Language Model for Named Entity Recognition (NER) 1.はじめに ICLR 2020では、ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators, a...

12月 28, 2020 グレゴリー・エリアス コメントはありません

チュートリアルNERのためにBERTを微調整する方法 原文:Skim AIの機械学習研究者、Chris Tran.はじめに この記事では、名前付き固有表現認識(NER)のためにBERTを微調整する方法について説明します。具体的には、BERT のバリエーションである SpanBERTa を NER 用に訓練する方法です。これは、さまざまなユースケースのためのスペイン語用カスタム BERT 言語モデルの訓練に関するシリーズの第Ⅲ部の第Ⅱ部である:パートI:ゼロからスペイン語用RoBERTa言語モデルを訓練する方法 パートIII:ゼロからスペイン語用ELECTRA言語モデルを訓練する方法 前回のブログポストでは、私のチームがスペイン語用変換言語モデルであるSpanBERTaをどのように事前訓練したかを説明した。

12月 28, 2020 グレゴリー・エリアス

チュートリアルはじめに 要約化は、自然言語処理における長年の課題である。文書の最も重要な情報を保持しながら短いバージョンを生成するには、重複する情報を避けながら重要なポイントを正確に抽出できるモデルが必要である。幸いなことに、Transformerモデルや言語モデルのプリトレーニングなど、最近の自然言語処理における研究が要約の最先端を進んでいる。本稿では、Text Summarization with Pretrained Encoders (Liu et al., 2019)から、抽出的要約のためのBERTの単純な変形であるBERTSUMを探求する。そして、抽出的要約のための...

12月 11, 2020 グレゴリー・エリアス

8 Ways News & Content Companies use A.I. to Save Money and Improve UX テクノロジーの影響を理解する最善の方法は、現在の問題を解決するために実際にテクノロジーを適用した具体例、事例を理解することです。以下は、私たちのクライアントである新聞、雑誌、コンテンツ、デジタルメディア企業が、コスト削減とユーザー・エクスペリエンスの向上のために活用している8つの一般的なAIソリューションです。この記事を読めば、A.I.を活用して拡張可能なプロセスを実装することでコストを削減し、コストを増やすことなくユーザー体験を向上させる方法を理解できるはずだ。AIを活用して自動化を促進し、実際に利益を得るためには、適切なデータ、十分な...

7月 27, 2020 グレゴリー・エリアス コメントはありません

自然言語生成とそのビジネス応用 自然言語生成(NLG) AI著者とロボットが生成したニュースの継続的な探求として、これらのアルゴリズムを駆動する技術のいくつかを探求することは価値がある。人間が書いたように読める文書を生成するように設計されたAIは、自然言語生成(NLG)アルゴリズムに依存している。NLGアルゴリズムは、構造化データから、あたかも人間が書いたかのように読めるテキストを自動生成することを意図している。構造化データとは、次のような文書である:新製品の特徴を説明する製品レポート、オンライン顧客満足度調査の調査結果、財務レポート(ロボット作成者が使用するようなもの)、パーソナライズされた電子メール。

4月 29, 2020 グレゴリー・エリアス

SpanBERTa:Spanberta_pretraining_bert_from_scratchはじめに¶変換モデルを使った自己学習法は、ほとんどの自然言語処理タスクで最先端の性能を達成している。しかし、変換モデルの学習には計算コストがかかるため、現在利用可能な事前学習済み変換モデルのほとんどは英語のみを対象としている。そこで、私たちのプロジェクトでスペイン語のNLPタスクのパフォーマンスを向上させるために、Skim AIの私のチームは、スペイン語用のRoBERTa言語モデルをゼロから訓練し、SpanBERTaと呼ぶことにしました。SpanBERTaはRoBERTa-baseと同じサイズである。我々はRoBERTaの学習スキーマに従い、18GBのOSCARのスペイン語コーパスでモデルを学習した。

4月 15, 2020 グレゴリー・エリアス コメントはありません

チュートリアルセンチメント分析のためのBERTの微調整 元々はSkim AIの機械学習研究者、クリス・トランによって発表されました。BERT_for_Sentiment_Analysis A - はじめに¶ 近年、NLPコミュニティは自然言語処理、特に転移学習への移行において多くのブレークスルーを見てきました。ELMo、fast.aiのULMFiT、Transformer、OpenAIのGPTのようなモデルは、研究者が複数のベンチマークで最先端の結果を達成することを可能にし、高性能で大規模な事前学習済みモデルをコミュニティに提供しました。NLPにおけるこのシフトは、数年前のコンピューター・ビジョンにおけるNLPのImageNetの瞬間のようなもので、特定のタスクで訓練された百万単位のパラメーターを持つディープ・ラーニング・ネットワークの低レイヤーが再利用され...

3月 20, 2020 グレゴリー・エリアス

機械学習プロジェクトを始める前にすべき10の質問 データサイエンス・プロジェクトの80%以上が、テストから本番への移行に失敗している。誰もが機械学習プロジェクトを始めているとしたら、どこで間違っているのだろうか?間違いなく、MLソリューションは、大量のデータを収集したり分析したりする業務に携わる人々の効率を向上させる。しかし、そのようなプロジェクトをどのように実施するかという脅威的な考えが、しばしば私たちを遠ざけてしまう。 では、そのような作業にどのように取り掛かればいいのだろうか?象を食べるのと同じ方法だ。チームを率いて標準的なAIプラットフォーム(Skim...

12月 5, 2019 グレゴリー・エリアス

プロダクト・マネージャーのためのトピック・モデリング トピック・モデリングとは?トピック・モデリングとは、自然言語処理(NLP)の一種で、一連の文書内で「トピック」、つまりよく出現する単語や単語のグループを見つけるために使用されます。トピック・モデルは、プロダクト・マネージャが扱う膨大な量のテキスト・データを分類・分析するために不可欠です。例えば、大規模なレビューのセットを分析して、顧客が自社製品について何を言っているのかを知る。