logo
    ULC Series gram cells from Interface offer high accuracy at low capacities
    0
    Citation
    0
    Reference
    10
    Related Paper
    Η παρούσα διατριβή τοποθετείται στο πλαίσιο της αυτόματης Μηχανικής Μετάφρασης, στην διαπροσωπίας ανθρώπου και μηχανής για τα άτομα με προβλήματα ακοής κάνοντας χρήση την γλώσσα των Κωφών, τηn Ελληνική Νοηματική Γλώσσα. Σε αυτή τη εργασία παρουσιάζουμε ένα πρωτότυπο σύστημα βασισμένο σε κανόνες μηχανικής μετάφρασης με σκοπό τη δημιουργία μεγάλων παράλληλων εύρωστων γραπτών σωμάτων ελληνικού κειμένου και της Ελληνικής Νοηματικής Γλώσσας κάνοντας χρήση της Σύντομης Μεταγραφής της Ελληνικής Νοηματικής Γλώσσας (ΣΜΕΝΓ) (text glosses). Στη συνέχεια, τα σώματα κειμένου χρησιμοποιούνται ως δεδομένα κατάρτισης για την παραγωγή / δημιουργία γλωσσικών μοντέλων ν-γραμμάτων (n-gram Language Model). Επίσης χρησιμοποιούνται και ως δεδομένα εκπαίδευσης για το σύστημα MOSES Στατιστικής Μηχανικής Μετάφρασης. Πρέπει να σημειωθεί ότι όλη η διαδικασία είναι ισχυρή και ευέλικτη, καθώς δεν απαιτεί βαθιά γνώση γραμματικής της ΕΝΓ. Στην εργασία μας παρουσιάζουμε μετρήσεις χρονικές εκτιμήσεις για την δημιουργία των γλωσσικών πόρων, αξιολογούμε τα γλωσσικά μοντέλα της ΕΝΓ μέσω της περιπλοκής και τέλος χρησιμοποιώντας τη μετρική βαθμολογία BiLingual Understudy Assessment (BLEU) για την αξιολόγηση της μηχανικής μετάφρασης, το πρωτότυπο σύστημα MT μας επιτυγχάνει ελπιδοφόρες επιδόσεις και συγκεκριμένα μια μέση βαθμολογία 60,53% και 85,1% / 65,5% / 53,8% / 44,8% για 1-gram / 2 -gram / 3-gram / 4-gram.
    Gram
    n-gram
    Citations (0)
    ngram extracts n-gram variables containing counts of how often n-grams occur in a given text. An n-gram is an n-long sequence of words. For example, is a unigram (1-gram), is a bigram (2-gram), and the black sheep is happy is a 5-gram. This is useful for text mining applications.
    Bigram
    n-gram
    Gram
    Extractor
    Feature (linguistics)
    Sequence (biology)
    Citations (0)
    N-gram indexing method is the most popular algorithm for the Japanese full text search system where each index consists of serial N characters. Especially the full text search for Japanese text usually has the 2-gram characters index as base in order to save the volumes of the index file. Although the additional higher-gram index is expected to improve the performance for searching indices, we have no experimental evaluation with additional higher-gram indices. This paper presents the evaluation about improving the text search performance with additional higher-gram indices by Search Term Intensive Approach which decides the term for higher-gram indices depend upon the appearance ratio in application programs as the searching term. On the concrete evaluation, the number of paper articles for searching is one or two hundred thousands, and the simulation for 5 or more gram additional indices can be applied add to evaluation for 3,4-gram additional indices.
    Gram
    n-gram
    Inverted index
    Citations (0)
    이 연구의 목적은 정형화된 연결어구와 관련하여 논증적 글쓰기 과제의 자동 채점을 위한 채점 자질을 구안하고 이를 통한 자동 채점의 가능성을 검토하는 것이다. 이에 본 연구는 세종 문어 코퍼스를 확보하여 상위 빈도N-gram을 추출하고 표현의 적절성, 표현의 다양성, 표현의 복잡성과 관련된 자질을 설계하였으며 이후 수집된 학생 글 359편을 토대로 자동 채점의 가능성을 탐색하였다. 먼저 설계된 자질과 글 점수 간의 Pearson 상관분석을 실시한 결과, ‘3-gram 빈도’, ‘3-gram 유형’, ‘3~5-gram 유형’과 총점 간 상관이 .6 이상으로 나타났으며, 이후 자질과 총점 간 회귀분석을 실시한 결과 ‘3-gram 빈도’와 ‘3-gram 비율’이 총점에 대해 54.8%의 설명력을 갖는 것으로 나타났다. 이러한 결과는 논증적 글쓰기의 표층과 관련한 채점 자질이 학생의 논증 구성 능력을 포함하여 전체적인 글쓰기 능력을 상당한 수준에서 예측 또는 측정할 수 있다는 선행연구와 일치한다.
    Gram
    n-gram
    Citations (0)
    n-gram 기반 역색인 구조는 언어 중립적이고 에러 허용적인 장점들로 인해 일부 아시아권 언어에 대한 정보 검색이나 단백질과 DNA의 sequence의 근사 문자열 매칭에 유용하게 사용되고 있다. 그러나, n-gram 기반의 역색인 구조는 색인의 크기가 크고 질의 처리 시간이 오래 걸린다는 단점들을 가지고 있다. 이에 본 논문에서는 n-gram 기반 역색인의 장점을 그대로 유지하면서 색인의 크기를 줄이고 질의 처리 성능을 향상시킨 2단계 n-gram 역색인(간단히 n-gram/2L 역색인이라 부른다)을 제안한다. n-gram/2L 역색인은 n-gram 기반 역색인에 존재하던 위치 정보의 중복을 제거한다. 이를 위해 문서로부터 길이 m의 m-subsequence들을 추출하고, 그 m-subsequence들로부터 n-gram을 추출하여 2단계로 역색인을 구성한다. 이러한 2단계 구성 방법은 이론적으로 의미 있는 다치 종속성이 존재하는 릴레이션을 정규화하여 중복을 제거하는 것과 동일하며, 이를 본문에서 정형적으로 증명한다. n-gram/2L 역색인은 데이타의 크기가 커질 수록 n-gram 역색인에 비해 색인 크기가 줄어들며 질의 처리 성능이 향상되고, 질의 문자열의 길이가 길어져도 질의 처리 시간이 거의 증가하지 않는 좋은 특성을 가진다. 1GByte 크기의 데이타에 대한 실험을 통하여, n-gram/2L 역색인은 n-gram 기반 역색인에 비해 최대 1.9 ~ 2.7배 더 작은 크기를 가지면서, 동시에 질의 처리 성능은 3~18 범위의 길이를 가지는 질의들에 대해 최대 13.1배 향상됨을 보였다.
    Gram
    n-gram
    Gram-Negative Bacteria
    Citations (0)
    ngram extracts n-gram variables containing counts of how often n-grams occur in a given text. An n-gram is an n-long sequence of words. For example, is a unigram (1-gram), is a bigram (2-gram), and the black sheep is happy is a 5-gram. This is useful for text mining applications.
    Bigram
    n-gram
    Gram
    Extractor
    Feature (linguistics)
    Citations (0)
    本論文では,分布仮説に基づく同義語獲得を行う際に,周辺単語の様々な属性情報を活用するために,文脈限定 Skip-gram モデルを提案する.既存の Skip-gram モデルでは,学習対象となる単語の周辺単語(文脈)を利用して,単語ベクトルを学習する.一方,提案する文脈限定 Skip-gram モデルでは,周辺単語を,特定の品詞を持つものや特定の位置に存在するものに限定し,各限定条件に対して単語ベクトルを学習する.したがって,各単語は,様々な限定条件を反映した複数の単語ベクトルを所持する.提案手法では,これら複数種類の単語ベクトル間のコサイン類似度をそれぞれ計算し,それらを,線形サポートベクトルマシンと同義対データを用いた教師あり学習により合成することで,同義語判別器を構成する.提案手法は単純なモデルの線形和として構成されるため,解釈可能性が高い.そのため,周辺単語の様々な単語属性が同義語獲得に与える影響の分析が可能である.また,限定条件の変更も容易であり,拡張可能性も高い.実際のコーパスを用いた実験の結果,多数の文脈限定 Skip-gram モデルの組合せを利用することで,単純な Skip-gram モデルに比べて同義語獲得の精度を上げられることがわかった.また,様々な単語属性に関する重みを調査した結果,日本語の言語特性を適切に抽出できていることもわかった.
    Gram
    n-gram
    Synonym (taxonomy)
    Citations (2)