文献
J-GLOBAL ID:202102216331432883   整理番号:21A0162899

Swahili言語のためのテキスト前処理の強化:共通のスワヒリストップワード,スラング,および等価固有語によるtyposのためのデータ集合【JST・京大機械翻訳】

Enhancing text pre-processing for Swahili language: Datasets for common Swahili stop-words, slangs and typos with equivalent proper words
著者 (2件):
資料名:
巻: 33  ページ: Null  発行年: 2020年 
JST資料番号: W3049A  ISSN: 2352-3409  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
自然言語処理は,異なる機械学習タスクにおける品質モデルを保証するために前処理されるデータを必要とする。しかし,Swahili言語は不利であり,前処理段階で有用なNLP,特に基本的テキストデータセットのための不十分なデータのために,低資源言語として分類されている。本論文では,一般的なSwahili Stop-語,一般的Swahili Slangsおよび一般的Swahili Typosデータセットを開発し,貢献した。これらのデータセットの主な源は,若い人々がそれらに対する事項を伝えることの意見を伝えるために,タンザニアのプラットフォームから収集された短いSwahiliメッセージであった。したがって,著者らのコーパスからPythonスクリプトで生成された最も頻繁な単語を見直すことによって,一般的Swahili停止語のリストを導き,それらの対応する適切な単語を有するSwahiliエキスパートの助けを借りて一般的スランをレビューして,コーパスからPythonスクリプトによって作り出される最小頻度単語を分析することによって,一般的Swahili typosを生み出した。データセットは容易なアクセスと再利用のためにファイルに輸出された。これらのデータセットは,Swahiliテキストデータのための前処理段階における資源として自然言語処理に再利用できる。Copyright 2021 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  人工知能 

前のページに戻る