Page 1 of 1

자연어 (04) 2일차 복습

이름


개념 체크

같은 맥락에서 함께 나타나는 단어들을 무엇이라고 합니까?

공기어 네트워크 분석에서 카이제곱 독립성 검정을 하는 이유는?

음성 인식을 할 때, 오디오 신호는 어떤 형태로 변환합니까?

문서나 단어의 비교를 위해 유사성을 보존하면서 더 낮은 차원의 벡터로 표현하는 방법은?

문서 유사도를 계산할 때 가장 많이 사용하는 거리 또는 유사도는?

모든 문서 벡터의 길이를 1로 맞추는 작업은?

잠재의미분석에서 "잠재"란 무슨 뜻입니까?

잠재의미분석은 문서 단어 행렬을 무엇과 무엇의 곱으로 쪼개나요?

잠재의미분석에서 실제 계산에 사용하는 행렬분해 방법은?

유사한 문서들을 군집으로 만드는 방법은?

스크리 플롯을 그리는 이유는?


실습

df = pd.read_csv('neurips.zip') 로 실습 파일을 불러내서 abstract 컬럼을 문서 단어 행렬로 바꾸십시오 (최소 1% 이상의 문서에 나타난 단어만 포함, 영어 불용어 처리) 3번째로 많이 나온 단어는 무엇입니까?

Truncated SVD를 하고(random_state=1234) 스크리 플롯을 그려보세요. 몇 차원으로 축소하는 것이 적절해보입니까?

위에서 정한 차원으로 다시 SVD를 하고, 단어 topic과 코사인 유사도가 가장 높은 단어를 찾아보세요. 어떤 단어입니까?

0번 논문과 가장 코사인 유사도가 높은 논문을 찾아보세요. 어떤 논문입니까?

VARIMAX 회전을 했을 때, 단어 topic은 어떤 차원의 값이 가장 높습니까?