View all post
-
[밑시딥2] word2vecA.I/Study 2023. 6. 26. 03:17
추론 기반 기법과 신경망 지금까지 연구되어온 단어를 벡터로 표현하는 방법 중 가장 성공적인 기법은 '통계 기반 기법'과 '추론 기반 기법'이라고 볼 수 있다. 통계 기반 기법의 문제점 이전에 언급된 통계 기반 기법은 주변 단어의 빈도를 기반으로 단어를 표현했다. 구체적인 방법으로는 동시발생 행렬을 만들고 그 행렬에 SVD를 적용하여 밀집벡터로 표현했다. 하지만, 이것은 대규모 말뭉치를 다룰때 문제가 발생한다. SVD는 n*n 행렬일 때, O(n^3)의 시간복잡도를 가지기 때문에 HPC 환경이라고 하더라도 비효율 적이다. 이렇게 통계기반 학습은 학습 데이터를 통으로 한번에 처리하지만, 추론 기반 기법은 미니배치 학습을 이용하여, 학습 데이터의 일부를 사용하여 순차적으로 학습한다. 데이터를 잘게 나누기 때문..
-
SyntaxNetA.I 2023. 6. 23. 14:46
먼저, 이 글은 구글 리서치의 "Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source"를 개인 공부 목적으로 번역한 것임을 밝힙니다. 주소: https://ai.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html Natural Language Understanding (NLU) systems의 중요한 부분이다. Parsey McParseface는 강력한 기계 학습 알고리즘 기반으로 구축된다. 그 알고리즘은 자연어의 언어학적 구조를 분석하는 방법을 학습하며, 주어진 문장의 각 언어의 기능적 역할을 설명할 수 있다. SyntaxNet은 어떻게 작동합니까? SyntaxNet은 학..
-
[밑시딥2] 자연어와 단어의 분산 표현A.I/Study 2023. 6. 17. 02:14
자연어 처리 개요 자연어 (Natural Language): 한국어나 영어와 같이 사람이 일반적으로 사용하는 말 자연어 처리(NLP; Natural Language Processing): 컴퓨터가 우리의 말을 이해하게 만드는데 목적을 둔 연구분야 자연어 특성 같은 의미의 문장이 여러형태로 표현 가능하다 문장의 뜻이 애매할 수 있다 그 의미나 형태가 유연하게 바뀐다. 세월에 따라 새로운 말이 생기거나 사라기지도 한다. 단어의 의미 말은 문자로 구성되고, 말의 의미는 단어로 구성된다. 즉, 단어는 의미의 최소 단위라고 볼 수 있다. 단어의 의미를 표현하는 방법 시소러스(thesaurus) 활용: 유의어 사전 기반 통계 기반 기법: 통계 정보로부터 단어를 표현 추론 기반 기법: 신경망을 활용 시소러스 단어의 ..