프로그래밍/R

    R - text mining 텍스트 마이닝 만들기

    R - text mining 텍스트 마이닝 만들기

    이 포스트에서는 데이터마이닝에 구축에 대한 것을 배울 것이다. 데이터 마이닝이랑 아래와 같은 형태의 통계지표를 이야기한다.관심빈도가 높을 수록 글자 크기가 크며, 낮을수록 작다. 통계 공공 포털 등에서 많이, 자주 활용하는 방법 중 하나이다. 먼저 분석할 데이터를 텍스트 형태로 워크스페이스에 넣는다. 실력만 있다면 다른형태의 데이터를 가져와서 가공해도 된다.(참고서에서 가져온 데이터라, 내가 배포해도 되나 싶어서 첨부하지 않는다.) 데이터가 없다면 적당히 웹에서 긁어서 실습해보도록 하자. 다음으로 코드를 기록해보도록 하자 처음으로 관련 패키지를 다운받아야한다. 순서대로 설치하고 메모리에 올리자. 빠샤 KoNLP는 자바 가상머신을 활용하는 함수들을 포함하고 있기에 자바 환경이 구축되어 있어야한다. 만약 구..

    R에서 Matrix(매트릭스)와 DataFrame(데이터 프레임) 등

    R에서 Matrix(매트릭스)와 DataFrame(데이터 프레임) 등

    저번에는 벡터를 살펴보았지만이번 포스트에서는 매트릭스와 데이터 프레임을 살펴보도록 하겠다. 코드 m1

    R에서 벡터(테이블, 행,열) / seq, rep 함수 이용

    R에서 벡터(테이블, 행,열) / seq, rep 함수 이용

    코드를 하기 앞서 기본적인 R의 용어부터 정리하자. 모든 자료구조의 테이블에서는 부르는 명칭이 다르다. 데이터베이스의 경우 레코드, 필드, 컬럼 등으로 부르고 데이터 마이닝이나 머신러닝을 하는 사람들은 examples, attributes 라고 부른다 R의 경우는 observations, variable로 부른다. 실체 조사한 관측치를 중점으로 잡는 통계언어 답다는 생각이 든다. R은 실측치를 다루는 만큼 1차원배열, 2차원배열, 3차원 이상의 배열을 부르는 용어도 다 다르다. 우리는 우선 먼저 vector에 대해 알아볼 것이다. 하지만 R의 용법 겉핥기 수준이니 자바 c등 기타언어를 접해보신 분들은문법 알아보기 수준일 것이다. 사실 이전 포스트에의 weight가 vector이다. 코드 결과 값 x에 1..

    R 변수 선언과 데이터 출력

    R 변수 선언과 데이터 출력

    먼저 R의 경우 주석은 앞에 # 을 붙이면 된다.C, 자바 등의 // 같은 표시다. R의 경우 변수 선언을 x

    R과 R studio 다운과 초기 설정

    R과 R studio 다운과 초기 설정

    R을 시작하기 위해서는 먼저 R언어 패키지와 그 R을 처리하는 스튜디오 프로그램이 필요하다. Rhttps://cran.r-project.org/ R Studiohttps://www.rstudio.com/products/RStudio/#Desktop JDKhttp://www.oracle.com/technetwork/java/javase/downloads/index.html jdk 는 다른 개발환경에서도 많이 사용하니 설치되어있는 사람은다운받지 않아도 된다. 나는 패키지는 RStudio 내부에서 코드로 다운받을 것이다.미리 필요한사람은 다운받도록 하자. R은 들어가서 저 버튼을 클릭하여 다운받으면 된다. R 스튜디오의 경우 다운로드 버튼 클릭 클릭 자기 OS에 맞추어서 다운받으면 된다. 둘다 디폴트로 쭉쭉 ..