電子商取引におけるアドレス分類のための深い文脈埋込み【JST・京大機械翻訳】

Mangalgi Shreyas; Kumar Lakshya; Tallamraju Ravindra Babu

プレプリント

J-GLOBAL ID：202202206030801603 整理番号：22P0167908

電子商取引におけるアドレス分類のための深い文脈埋込み【JST・京大機械翻訳】

Deep Contextual Embeddings for Address Classification in E-commerce

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年07月06日プレプリントサーバーでの情報更新日： 2020年07月06日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

インドのような発展途上国における電子商取引顧客は,船舶アドレスに入って,固定フォーマットを追従する傾向がある。このようなアドレスは,固有の構造や階層構造の欠如のため,挑戦的である。アドレスの言語を理解するのは必須であるので,出荷は遅延なしで経路化できる。本論文では,自然言語処理(NLP)の最近の進歩から動機づけを誘導することにより,顧客アドレスを理解する新しいアプローチを提案した。また,編集距離と音声アルゴリズムの組合せを用いて,アドレスに対する異なる前処理段階を定式化した。次に,著者らは,TF-IDF,Bi-LSTMおよびBERTベースのアプローチによるWord2Vecを用いたアドレスのためのベクトル表現を作成するタスクにアプローチした。北および南インドの都市に対するサブ領域分類タスクに関してこれらのアプローチを比較した。実験により,言語モデリングタスクに対する大きなアドレスコーパス上で事前訓練された一般化RoBERTaモデルの有効性を実証した。提案したRoBERTaモデルは,他のすべてのアプローチを凌駕するサブ領域分類タスクに対して最小テキスト前処理で,約90%の分類精度を達成した。一旦事前訓練すると,RoBERTaモデルは,ピンコードの提案やジオコーディングのようなサプライチェーンにおける様々な下流タスクに対して微調整できる。モデルは,限られたラベル付きデータでもそのようなタスクに対してよく一般化する。知る限りでは,これは,事前訓練言語モデルおよび異なる目的のための微調整により,e-コマースドメインにおける顧客アドレスの理解の新しいアプローチを提案する,その種類の研究の最初のものである。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

計算機網 , 自然語処理 , 人工知能

, , , ,

前のページに戻る