오늘도 공부중

hadoop2

[Hadoop] Map Reduce - timed out after 600secs 에러 해결 기록용 글이다. 1. 배경 1) 이 프로젝트에서는 형태소 단위로 wordcount를 진행하고자 했다. 하둡을 '하둡답게' 이용하고 싶었기 때문에 데이터 6기가 정도를 크롤링으로 모았다. 2) 내가 짠 mapreduce 코드는 관광지명, 형태소가 key고 value가 카운팅횟수이기 때문에 한 줄에 관광지명, 텍스트가 전부 다 들어가있어야했다. 크롤링한 데이터는 일반적인 블로그글이라 미리 특수문자, 개행문자를 모두 제거하고 csv형식으로 정리해두었다. 3) 사용하던 하둡 클러스터 서버는 50대 정도의 서버를 묶은 것으로 내게 sudo권한이 없었다. 따라서 관리자권한이 필요한 설정변경은 할 수 없는 상황이었다. 2. 오류메세지 이렇게 mapreduce를 실행하면 timed out after 600s.. 기록/그 외 프로젝트 기록 2022. 9. 28.

[Hadoop] Python으로 wordcount하기(Hadoop Streaming) 코드는 딱히 특별하지 않아서 설명하지 않는다. (내가 이 글로 말하고 싶은 부분은 3,4번에 있다.) 1. mapper #!/usr/bin/env phthon3 # -*-coding:utf-8 -* import sys for line in sys.stdin: words = line.strip().split() for word in words: print('{}\t{}'.format(word, 1)) 2. reducer #!/usr/bin/env python3 # -*-coding:utf-8 -* import sys def print_output(word, count): print('{}\t{}'.format(word, count)) word, count = None, 0 for line in sys.st.. 기록/그 외 프로젝트 기록 2022. 9. 22.

이전 1 다음

티스토리툴바