Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feature] 많은 수의 기사에서 첫 줄이 삭제되고 있습니다. #7

Open
jonyejin opened this issue Jan 31, 2023 · 1 comment

Comments

@jonyejin
Copy link
Contributor

jonyejin commented Jan 31, 2023

현재 코드에서는 첫 글자가 특수문자가 아니고, 마침표로 끝나는 문장만 정상적인 문장으로 인식합니다.
하지만, 대부분의 기사가 첫 줄이 [방송국 기자명] 이나 <방송국 기자명> 의 형태를 띄고 있습니다.
기사 특성 상 첫 문장이 중요하기 때문에 기사의 전반적인 내용을 요약하는 첫 줄이 없어진다면 데이터의 무결성이 손상됩니다.

PR로 코드 수정 사항을 올릴테니 확인 부탁드립니다!

example

다음 과 같은 기사에서

[아시아경제 이기민 기자] 삼성디스플레이 아산사업장에서 1일 화재가 발생해 공장 가동이 중단됐다.
삼성디스플레이에 따르면 이날 오후 2시20분께 아산사업장 2캠퍼스 A3라인에서 화재가 발생했다.
...

첫 줄이 삭제됩니다.

@jonyejin
Copy link
Contributor Author

jonyejin commented Feb 1, 2023

regex: ^((\[.+\]|\(.+\))(\s?([가-힣 ]{2,} (기자|특파원),?)+\s*=?)+|(\[.+\]|\(.+\)))

[서울=뉴시스]이재준 기자 = 올해...
[세종=이데일리 이진철 기자] 정세균
[이데일리 김종호 기자] 한국디스플레이연구조합은
[더팩트 | 서재근 기자]
(괴산=연합뉴스) 박종국 기자 = 충북
(런던=연합뉴스) 박대한 특파원 = 유럽 최대
(서울=뉴스1) 류정민 기자 =
(이천=연합뉴스) 최종호 류수현 기자 =
(서울=뉴스1) 김태환 기자,음상준 기자,이영성 기자,이형진 기자 = 정부가
[서울경제] 미국

와 같은 테스트케이스를 잘 처리하고 있습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant