Page 1 of 1
자연어 (04) 2일차 복습
이름
*
개념 체크
같은 맥락에서 함께 나타나는 단어들을 무엇이라고 합니까?
*
공기어 네트워크 분석에서 카이제곱 독립성 검정을 하는 이유는?
*
음성 인식을 할 때, 오디오 신호는 어떤 형태로 변환합니까?
*
문서나 단어의 비교를 위해 유사성을 보존하면서 더 낮은 차원의 벡터로 표현하는 방법은?
*
문서 유사도를 계산할 때 가장 많이 사용하는 거리 또는 유사도는?
*
모든 문서 벡터의 길이를 1로 맞추는 작업은?
*
잠재의미분석에서 "잠재"란 무슨 뜻입니까?
*
잠재의미분석은 문서 단어 행렬을 무엇과 무엇의 곱으로 쪼개나요?
*
잠재의미분석에서 실제 계산에 사용하는 행렬분해 방법은?
*
유사한 문서들을 군집으로 만드는 방법은?
*
스크리 플롯을 그리는 이유는?
*
실습
df = pd.read_csv('neurips.zip') 로 실습 파일을 불러내서 abstract 컬럼을 문서 단어 행렬로 바꾸십시오 (최소 1% 이상의 문서에 나타난 단어만 포함, 영어 불용어 처리) 3번째로 많이 나온 단어는 무엇입니까?
*
Truncated SVD를 하고(random_state=1234) 스크리 플롯을 그려보세요. 몇 차원으로 축소하는 것이 적절해보입니까?
*
위에서 정한 차원으로 다시 SVD를 하고, 단어 topic과 코사인 유사도가 가장 높은 단어를 찾아보세요. 어떤 단어입니까?
*
0번 논문과 가장 코사인 유사도가 높은 논문을 찾아보세요. 어떤 논문입니까?
*
VARIMAX 회전을 했을 때, 단어 topic은 어떤 차원의 값이 가장 높습니까?
*
Submit