Wednesday, March 28, 2018

Reference parsing with regex

https://regexr.com/3n0ac


https://regexr.com/3n0dl


파이썬 라틴 유니코드

https://stackoverflow.com/questions/2247205/python-returning-the-wrong-length-of-string-when-using-special-characters

word = u'a\u0301'
unicodedata.normalize('NFC', word)
의 결과로
u'\xe1' # single character: á

를 얻을수 있고, 필요에 따라선 'NFD'로 그 역으로 변환 가능.

print(u'a\u0301')와 print(u'\xe1') 는 둘다 á 라고만 출력하지만, 정작 비교하면
u'a\u0301' == u'\xe1' 결과는 False가 되서 고통스러운 문제를 일으킨다.

다음 예시 참고.