B
    .(b8                 @   s  d dl mZ d dlZdddddgfejdd	d
dddgej ddddddgfdd	dddgfdd	dddgfejdd	d
dgej dddddgfdd	dgfdd	dgfdddddgfd d!d"d#dgfd$d!d"d#d"gfd%d!d"gfd&d!d"gfd'd!d"d(dgfd)d*d+d,d-gfd.d*d+d,d/gfgZd0dd1d2d3d2d4d2d5d#dg
fd6d7d8gfd9dd1dgfd:dd5dgfd;d<dgfd=d>d?d@dgfdAdBd?gfdCd	dDdEgfdFdBd?d/gfdGdBd?dgfdHdBd?d"gfdIdBd?d"d#dgfdJdBd?d#d/gfdKdLd#d/gfdMddNddgfdOdPdQdgfdRd	dSdTd/gfdUd	dSd/gfdVd	dSdgfdWdXdYdZd[d?d/gfd\d	d]dgfd^d	d_dgfd`d	dadgfgZdbd	dcd#dgfddd	ded#dgfdfd	dcdgfdgd	dedgfdhd	did#dgfdjd	dkd#dgfdld	didgfdmd	dkdgfdnd	dod#dgfdpd	dqd#dgfdrd	dqdgfdsd	dtd#dgfdud	dvd#dgfdwd	dvdgfdxd	dyd#dgfdzd	d{d#dgfd|d	d{dgfd}d	d~d#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	dd#dgfdd	dd#dgfdd	dd#dgfdd	ddd#dgfdd	dddd#dgfdd	dddd#dgfdd	dd#dgfdd	dddd#dgfdd	dddd#dgfdd	dddd#dgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	ddgfdd	dddd#dgfdd	dddd#dgfdd	dddgfdd	ddddgfdd	dddd#dgfdd	dddd#dgfdd	dddgfdd	ddddgfdd	ddd#dgfdd	ddd#dgfdd	ddgfdd	dddgfdd	dd#dgfdd	dd#dgfdd	dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfd d	ddgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	d	dgfd
d	dd#dgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	ddgfdd	dd#dgfdd	dd#dgfdd	ddgfdd	dd#dgfdd	d d#dgfd!d	d dgfd"d	d#d#dgfd$d	d%d#dgfd&d	d%dgfd'd	d(d#dgfd)d	d*d#dgfd+d	d*dgfd,d	d-d#dgfd.d	d/d#dgfd0d	d-dgfd1d	d/dgfd2d	d3d#dgfd4d	d5d#dgfd6d	d3dgfd7d	d5dgfd8d	d9d#dgfd:d	d;d#dgfd<d	d;dgfd=d	d>d#dgfd?d	d@d#dgfdAd	d@dgfdBd	dCd#dgfdDd	dEd#dgfdFd	dEdgfdGd	dHd#dgfdId	dJd#dgfdKd	dJdgfdLd	dMd#dgfdNd	dOd#dgfdPd	dOdgfdQd	dRd#dgfdSd	dTd#dgfdUd	dTdgfdVd	dWd#dgfdXd	dYd#dgfdZd	dWdgfd[d	dYdgfd\d	d]d#dgfd^d	d_d#dgfd`d	d_dgfdad	dbdcgfddd	dbdegfdfd	dggfdhd	dbdidgfdjd	dbdigfdkd	dlgfdmd	dbdngfdod	dpgfdqd	dbdndgfdrdsdtdugfgZdvddwdxd2dydwdzd{dg	fd|dwdxd2dydwdzd{dgfd}ddwdxd2dydwdgfd~ddddgfdd	dd#dgfgZ	dddddgfejdd	d
dddgej ddddddgfdd	dddgfdd	dddgfejdd	d
dgej dddddgfdd	dgfdd	dgfdddddgfd d!d"d#dgfd$d!d"d#d"gfd%d!d"gfd&d!d"gfd'd!d"d(dgfgZ
ddXdddddXddddg
fddXdddddXddddg
fddXdddd-dddddg
fddXdddd-dddddg
fddXdddd/dXddddg
fddXdddd/dXddddg
fddd2dgfddd2dgfddddgfg	Zdd-dwgfdddwdgfdddwdgfdd-dwdgfddwdwdgfddwdYdgfddYdd[dgfddwdYd"d[dwdgfdddYdd[dgfg	Ze
e	 e e e e ZeZedd eeD  dd eeD Zedd eD  ejdedd ZdS (      )unicode_literalsNu   N. kormányzósági
székhely.zN.u   kormányzóságiu	   székhely.zA .hu egy tld.Az.huZegytld)markszAz egy.ketto pelda.ZAzz	egy.kettoZpeldazA pl. rovidites.zpl.Z	roviditeszA S.M.A.R.T. szo.z
S.M.A.R.T.ZszozA .hu.zAz egy.ketto.zA pl.zA S.M.A.R.T.z	Egy..ket.ZEgyz..ZketzValami... van.ZValamiz...ZvanzValami ...van...z	Valami...z
Valami ...u   Valami ... más.u   mászSoha nem lesz!ZSohaZnemZlesz!zSoha nem lesz??u&   Egy -nak, -jaiért, -magyar, bel- van.z-nak,u   -jaiértz-magyarzbel-u   Szabolcs-Szatmár-Bereg megyeu   Szabolcs-Szatmár-BeregZmegyez	Egy -nak.z	Egy bel-.zDinnye-domb-.zDinnye-domb-zEzen -e elcsatangolt.ZEzenz-eZelcsatangoltzLakik-eZLakikzA--Bz--BzLakik-e?zLakik-e.z
Lakik-e...zLakik-e... van.zLakik-e van?zLakik-elem van?z
Lakik-elemu    Az életbiztosításáról- egy.u   életbiztosításáról-zVan lakik-elem.ZVanz
lakik-elemzA 7-es busz?z7-esZbuszzA 7-es?zA 7-es.zEz (lakik)-e?ZEz(Zlakik)zA %-sal.z%-salzA $-sal.z$-salzA CD-ROM-okrol.zCD-ROM-okrolz	A 2b van.Z2bzA 2b-ben van.z2b-benzA 2b.z	A 2b-ben.z
A 3.b van.z3.bzA 3.b-ben van.z3.b-benzA 3.b.z
A 3.b-ben.zA 1:20:36.7 van.z	1:20:36.7zA 1:20:36.7-ben van.z1:20:36.7-benzA 1:20:36.7-ben.zA 1:35 van.z1:35zA 1:35-ben van.z1:35-benzA 1:35-ben.zA 1.35 van.z1.35zA 1.35-ben van.z1.35-benzA 1.35-ben.zA 4:01,95 van.z4:01,95zA 4:01,95-ben van.z4:01,95-benzA 4:01,95-ben.zA 10--12 van.z10--12zA 10--12-ben van.z
10--12-benzA 10--12-ben.u   A 10‐12 van.u   10‐12u   A 10‐12-ben van.u   10‐12-benu   A 10‐12-ben.u   A 10‑12 van.u   10‑12u   A 10‑12-ben van.u   10‑12-benu   A 10‑12-ben.u   A 10‒12 van.u   10‒12u   A 10‒12-ben van.u   10‒12-benu   A 10‒12-ben.u   A 10–12 van.u   10–12u   A 10–12-ben van.u   10–12-benu   A 10–12-ben.u   A 10—12 van.u   10—12u   A 10—12-ben van.u   10—12-benu   A 10—12-ben.u   A 10―12 van.u   10―12u   A 10―12-ben van.u   10―12-benu   A 10―12-ben.zA -23,12 van.z-23,12zA -23,12-ben van.z
-23,12-benzA -23,12-ben.z
A 2+3 van.z2+3z
A 2<3 van.z2<3z
A 2=3 van.z2=3u   A 2÷3 van.u   2÷3u   A 1=(2÷3)-2/5 van.u   1=(2÷3)-2/5zA 2 +3 van.2z+3zA 2+ 3 van.+3zA 2 + 3 van.z
A 2*3 van.z2*3zA 2 *3 van.*zA 2* 3 van.zA 2 * 3 van.z
A C++ van.zC++zA C++-ben van.zC++-benzA C++.z
A C++-ben.zA 2003. I. 06. van.z2003.zI.z06.zA 2003. I. 06-ben van.z06-benzA 2003. I. 06.zA 2003. I. 06-ben.zA 2003. 01. 06. van.z01.zA 2003. 01. 06-ben van.zA 2003. 01. 06.zA 2003. 01. 06-ben.zA IV. 12. van.zIV.z12.zA IV. 12-ben van.z12-benz	A IV. 12.zA IV. 12-ben.zA 2003.01.06. van.z2003.01.06.zA 2003.01.06-ben van.z2003.01.06-benzA 2003.01.06.zA 2003.01.06-ben.zA IV.12. van.zIV.12.zA IV.12-ben van.z	IV.12-benzA IV.12.zA IV.12-ben.zA 1.1.2. van.z1.1.2.zA 1.1.2-ben van.z	1.1.2-benzA 1.1.2.zA 1.1.2-ben.zA 1,5--2,5 van.z1,5--2,5zA 1,5--2,5-ben van.z1,5--2,5-benzA 1,5--2,5-ben.zA 3,14 van.z3,14zA 3,14-ben van.z3,14-benzA 3,14-ben.zA 3.14 van.z3.14zA 3.14-ben van.z3.14-benzA 3.14-ben.z
A 15. van.z15.zA 15-ben van.z15-benz	A 15-ben.zA 15.-ben van.z15.-benz
A 15.-ben.zA 2002--2003. van.z2002--2003.zA 2002--2003-ben van.z2002--2003-benzA 2002-2003-ben.z2002-2003-benzA +0,99% van.z+0,99%zA -0,99% van.z-0,99%zA -0,99%-ben van.z
-0,99%-benz	A -0,99%.zA -0,99%-ben.zA 10--20% van.z10--20%zA 10--20%-ben van.z10--20%-benz
A 10--20%.zA 10--20%-ben.u   A 99§ van.u   99§u   A 99§-ben van.u   99§-benu   A 99§-ben.u   A 10--20§ van.u   10--20§u   A 10--20§-ben van.u   10--20§-benu   A 10--20§-ben.u   A 99° van.u   99°u   A 99°-ben van.u   99°-benu   A 99°-ben.u   A 10--20° van.u   10--20°u   A 10--20°-ben van.u   10--20°-benu   A 10--20°-ben.u
   A °C van.u   °Cu   A °C-ben van.u   °C-benu   A °C.u
   A °C-ben.u   A 100°C van.u   100°Cu   A 100°C-ben van.u
   100°C-benu	   A 100°C.u   A 100°C-ben.zA 800x600 van.Z800x600zA 800x600-ben van.z800x600-benzA 800x600-ben.zA 1x2x3x4 van.Z1x2x3x4zA 1x2x3x4-ben van.z1x2x3x4-benzA 1x2x3x4-ben.z
A 5/J van.z5/JzA 5/J-ben van.z5/J-benz
A 5/J-ben.zA 5/J. van.z5/J.zA 5/J.-ben van.z5/J.-benzA 5/J.-ben.zA III/1 van.zIII/1zA III/1-ben van.z	III/1-benzA III/1-ben.zA III/1. van.zIII/1.zA III/1.-ben van.z
III/1.-benzA III/1.-ben.zA III/c van.zIII/czA III/c-ben van.z	III/c-benzA III/c.zA III/c-ben.u   A TU–154 van.u   TU–154u   A TU–154-ben van.u   TU–154-benu   A TU–154-ben.u   A 5cm³5u   cm³z	A 5 $-banz$-banzA 5$-banz5$-banzA 5$.$zA 5$zA $5z$5zA 5km/hzkm/hzA 75%+1-100%-igz75%+1-100%-igzA 5km/h.u   3434/1992. évi elszámolász
3434/1992.u   éviu   elszámolászAz "Ime, hat"-ban irja."ZImeZhatz-banZirjaz"Ime, hat"-ban irja.zAz "Ime, hat".zEgy 24"-os monitor.z24"-osZmonitorzA McDonald's van.z
McDonald'su   A pl. rövidítés.u   rövidítésu   A S.M.A.R.T. szó.u   szóu(   Ez egy mondat vége.Ez egy másik eleje.Zmondatu   végeu   másikZelejeu)   Ez egy mondat vége .Ez egy másik eleje.u(   Ez egy mondat vége!ez egy másik eleje.Zezu)   Ez egy mondat vége !ez egy másik eleje.u(   Ez egy mondat vége?Ez egy másik eleje.u)   Ez egy mondat vége ?Ez egy másik eleje.u
   egy,kettőu   kettőu   egy ,kettőu   egy :kettő:z!"u   lány"au   lányaz!"-lelz-lelz""-sorozat z-sorozatu   "(Köszönömu   Köszönömu   (törvénykönyv)-ben u   törvénykönyvz-benu   "(...)"–sokkal u	   –sokkalu   cérium(IV)-oxidu   cériumZIVz-oxidc             C   s    g | ]\}}|d  dkr|qS )
   r    ).0ixr   r   Q/home/dcms/DCMS/lib/python3.7/site-packages/spacy/tests/lang/hu/test_tokenizer.py
<listcomp>1  s    r   c             C   s    g | ]\}}|d  dkr|qS )r   r   r   )r   r   r   r   r   r   r   4  s    c             C   s<   g | ]4}t |d  ts4tj|d  |d tj dn|qS )r      )r   )
isinstancetuplepytestparammarkZslow)r   r   r   r   r   r   7  s   ztext,expected_tokensc             C   s&   | |}dd |D }||ks"t d S )Nc             S   s   g | ]}|j s|jqS r   )Zis_spacetext)r   tokenr   r   r   r   B  s    z7test_hu_tokenizer_handles_testcases.<locals>.<listcomp>)AssertionError)Zhu_tokenizerr#   Zexpected_tokenstokensZ
token_listr   r   r   #test_hu_tokenizer_handles_testcases?  s    r'   )
__future__r   r    r!   r"   ZxfailZDEFAULT_TESTSZHYPHEN_TESTSZNUMBER_TESTSZQUOTE_TESTSZ	DOT_TESTSZ
TYPO_TESTSZ
WIKI_TESTSZEXTRA_TESTSZTESTSextend	enumerateZ
SLOW_TESTSZparametrizer'   r   r   r   r   <module>   s  









"$



  ""  

