티스토리 뷰

matlab

홍길동 기자가 쓴 기사만 찾기

게으른 the lazy 2023. 10. 10. 13:23

 

 

이 글은 성공기보다는 실패기에 더 가깝다. 어쨌든 삽질의 기록이라도 남겨두고자 한다.

 


 

인터넷 기사를 읽다 보면 "오, 이 사람 글 재밌는데?"라는 생각이 들 때가 있다. 그래서 그 사람이 쓴 글을 검색해서 찾아 읽는다. 그런데 이 검색이 잘 되지 않아 종종 답답하다.

 

동아사이언스에서 재밌는 글을 읽었다. 하버드 의대생도 틀리는 문제?라니... 일단 기사 제목부터 낚시성이 짙은 것이 확 끌리지 않는가? 제목을 보아하니 시리즈물인 것 같다. 글쓴이는 정신과 전문의 박한선 씨라는데, 꽤 오랫동안 글을 올리고 있는 듯 하다. 이 분의 글을 더 읽고 싶어서 기사 맨 밑에 있는 "모든기사보기"를 클릭했으나 동작하지 않는다. 안되잖아? 이럴 땐 뭐다?

 

어... 만족스럽지 않다. 일단 이 분, 글을 너무 많이 썼고 너무 많이 인용됐다. 분명히 검색이 안되거나 놓치는 기사도 있을 것 같다. 어떡하지?

 

 


 

아래는 매트랩 코드이다.

 

num = 8703;
while true
    url = "https://www.dongascience.com/news.php?idx=" + num;
    disp(url)
    data = webread(url);
    if contains(data, '박한선')
        web(url)
        keyboard
    end
    num = num + 1;
end

 

동아사이언스 기사의 url은 모두 같은 형태를 띠고 있으며, 맨 뒤에 번호만 다르다. 그렇다면 숫자를 일일이 검색해서 본문에 "박한선"이 있는 것만 찾으면 될 일이 아닌가? 위 코드에 약간의 첨언을 하자면,

● 8703은 내가 찾은 박한선 씨의 가장 오래된 기사의 번호이다.

web(url)을 실행하면 매트랩이 브라우저 탭을 하나 열어서 그 url로 보내준다.

 

결론

1. 동작은 한다.

2. 너무 느려서 못해먹겠다.

 

이상. 끗.

 

 

게으른

 

 

댓글