文献
J-GLOBAL ID:202202218383972501   整理番号:22A1093710

part-of-speech(POS)タグn-gramと単語埋込みに基づく外部盗聴検出システム【JST・京大機械翻訳】

An external plagiarism detection system based on part-of-speech (POS) tag n-grams and word embedding
著者 (3件):
資料名:
巻: 197  ページ: Null  発行年: 2022年 
JST資料番号: W0178A  ISSN: 0957-4174  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
この論文の目的は,文書の plagiされた通路を識別するための自動斜長石検出システムを提示することである。斜長石検出システムは,構文的および意味的類似性の両方を用いて, pl欲な通路を同定した。提案手法は,ソースと疑わしい文章間の構文類似性を示すことができる部分音声タグnグラム(POSNG)の使用のため,新しい貢献である。各ソース文書は,可能な斜長石候補である文章に迅速にアクセスするために,検索エンジンによる音声(POS)タグnグラムに従って索引付けされる。著者の pl作検出システムはPOSタグnグラムを使用するだけで非常に良い結果を得るが,その性能は意味類似性の利用によってさらに改善される。Word2Vecと呼ばれる単語埋込み技術を用いて単語間の意味的関連性を測定し,ソースと疑わしい文の間の意味類似性を測定するために最長の共通部分配列手法を用いた。verbatim,paraphrasing,ソースコード,および交差言語のようないくつかのタイプの斜長石がある。高い混乱パラフラッシングは,一種の斜長石であり,その検出は,最も難しい斜長石検出タスクの1つである。POSタグnグラムに基づく著者らの提案方法は,高混乱パラフレッシング型の検出性能を改善し,本論文の主要な貢献である。本研究では,自動斜長石検出アルゴリズムの評価用に作成したPAN-PC-11と呼ばれる大規模データセットを用いた。著者らの実験は,PAN-PC-11の4種類のパラフラッシングで行われ,いずれも,低,高,および模擬の混乱パラフラッシング型である。様々な閾値とパラメータ設定を定義し,結果の多様性を評価した。プラジリスム検出(PAN11)に関する第3回国際競争において,著者らの方法の性能をプラギアム検出器と比較した。実験結果に従って,提案方法は,高および低混乱パラフラッシングの型における遅れ測度に関して最良の性能を達成して,他のパラフラッシングタイプにおける競合結果を生み出した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
自然語処理  ,  パターン認識  ,  音声処理 

前のページに戻る