MyHeritage lisäsi valtavan kokoelman historiallisia Yhdysvaltojen kaupunkihakemistoja

Kommentit

Meillä on ilo kertoa  valtavan, historiallisia tietoja sisältävän Yhdysvaltojen kaupunkihakemistokokoelman julkaisemisesta – työn, joka on ollut käynnissä kaksi vuotta. Kokoelma on tuotettu ja saatavana yksinomaan MyHeritagessa. Sen pohjana on 25 000, julkista, vuosina 1860 – 1960 julkaistua kaupunkihakemistoa, joiden 1,3 miljardista tiedosta on koottu 545 miljoonan tietokanta, sillä alkuperäiseen tietomäärään sisältyi useita samankaltaisia merkintöjä samoista henkilöistä. Lisäys nostaa MyHeritagen historiallisten tietojen määrän 11,9 miljardiin tietoon.

Tee hakuja USA:n kaupunkihakemistoista

MyHeritagen uusi kaupunkihakemistokokoelma on runsas tietolähde jokaiselle, joka haluaa tietää lisää suvustaan Yhdysvalloissa 1800-luvun puolivälistä – 1900-luvun puoliväliin. Hakemistot sisältävät arvokkaita tietoja arkipäivän elämästä Yhdysvalloissa sisällissodasta kansalaisoikeusliikkeeseen.

Mitä kaupunkihakemistot ovat?

Kaupungit Yhdysvalloissa ovat tuottaneet ja jakaneet hakemistoja 1700-luvulta lähtien ajantasaisena lähteenä auttamaan asukkaita löytämään paikallisia ihmisiä ja yrityksiä. Kaupunkihakemistoissa listataan tyypillisesti nimet (ja puolisot), osoitteet, ammatit ja työpaikat. Joskus ne sisältävät lisätietoja.

Yksityiskohtaisten tietojen ansiosta kaupunkihakemistot voivat tarjota toimivan vaihtoehdon Yhdysvaltain väestölaskentatiedoille muina kuin väestönlaskentavuosina. Liittovaltion väestölaskenta suoritettiin kymmenen vuoden välein, ja monissa tapauksissa kaupunkihakemisto julkaistiin vuosittain. Ne voivat myös täyttää aukkoja tilanteissa, joissa väestölaskentatietoja on kadonnut tai tuhoutunut. Esim. vuonna 1921 tuli Yhdysvaltain kauppaministeriössä tuhosi suurimman osan vuoden 1890 väestönlaskennasta. Huolimatta tietojen häviämisestä tulipalossa, voidaan suuri osa tiedoista rekonstruoida käyttämällä MyHeritagessa olevia vuoden 1890 kaupunkihakemistoja, jotka sisältävät tietoja 344 kaupungista ympäri maata, ml. 88 sadasta suurimmasta kaupungista kyseisenä vuonna.

Ainutlaatuinen MyHeritage-prosessointi

Tässä kokoelmassa olevia kaupunkihakemistoja ovat julkaisseet tuhannet kaupungit Yhdysvalloissa, ja jokainen hakemisto on muotoiltu eri tavalla. Valtava sisältömäärä ja sen monimuotoisuus tekivät hankkeesta haastavamman ja se vaati erikoisteknologian kehittämistä tietojen käsittelemiseksi.

Käytimme ensin optista merkintunnistusta (OCR) muuntaessamme hakemistojen skannatut kuvat tekstiksi. Tämä prosessi voi johtaa virheisiin ja loimme algoritmeja näiden virheiden havaitsemiseksi ja korjaamiseksi.

Seuraavaksi meidän piti jäsentää tietueet eri kenttien tunnistamiseksi: nimet, ammatit, osoitteet ja muut. Erot hakemistojen muotoilussa olivat lisähaaste. Tiimimme käyttämiä menetelmiä algoritmin kouluttamisessa kirjakohtaiseen malliin olivat mm. nimikokonaisuuden tunnistaminen (NER) ja ehdollinen satunnainen kenttä (CRF). Se tarkoitti, että, jokaisesta 25 000 kirjasta tehtiin manuaalisesti mallitiedosto, jota käytettiin algoritmin kouluttamisessa hakemiston jäsentämiseen. Tätä mallia käyttämällä algoritmi pystyi saamaan koko kirjan jäsennellyksi, arvokkaan historiallisen tiedon hakemistoksi.

Alla olevassa esimerkissä yhdysvaltalaisen Major League Baseball -pelaajan ja lähetystoiminnan harjoittajan Ralph McPherran Kinerin kaupunkihakemistotiedosta näemme kuinka järjestelmämme korjasi OCR-virheen. Vuoden 1957 tiedoissa oleva osoite 55801 Yorkshire av on väärä, kun taas vuosien 1958 ja 1960 tiedoissa osoite on h5801 Yorkshire av, ja ”h” tarkoittaa, että Ralph on talonomistaja. Päätelimme, että ensimmäisen tietueen ensimmäinen ”5” oli OCR-virhe ja sen pitäisi tosiasiassa olla ”h”, ja pystyimme siksi selvittämään, että Ralph asui samassa osoitteessa näiden vuosien aikana.

Tietojen yhdistäminen ja hakukelpoisen hakemiston luominen

Tietojen jäsentelemisen jälkeen yhdistimme ne ennennäkemättömällä tavalla. Tunnistimme tiedot, joiden ajattelimme liittyvän yhteen henkilöön, joka asui samassa osoitteessa usean vuoden ajan ja jonka tiedot julkaistiin ​​useissa kaupunkihakemiston painoksissa. Yhdistimme kaikki nämä merkinnät yhdeksi, joka kattaa ko. vuodet. Toimenpide vähensi ”hakukonesaastetta”, sillä  henkilön haku olisi antanut useita, hyvin samankaltaisia ​​merkintöjä peräkkäisiltä vuosilta. Yhdistäminen helpottaa uramuutosten, likimääräisten vihkipäivien, uudelleen avioitumisten ja todennäköisten kuolinpäivien havaitsemista. Tietojemme mukaan algoritminen päättely avioliittojen ja kuolintapahtumien päiväyksistä kaupunkihakemistoissa on ainutlaatuista MyHeritagelle.

Seuraavassa esimerkissä yhdistimme 31 (!) Tietuetta vuosilta 1912–1959 yhdeksi tietueeksi. Vuosien aikana kerättyjen tietojen perusteella on todennäköistä, että Alfred ja Mary Albert menivät naimisiin noin vuonna 1914. Pystyimme myös selvittämään, että Alfred kuoli noin vuonna 1959.

Yhdistetyistä tiedoista nähdään Alfredin myös vaihtaneen ammattia useita kertoja näiden vuosien aikana: konduktööristä puusepäksi ja sitten kuljettajaksi.

Juuri tässä on yhdistämisen teho: se muuntaa useat “tylsät” tiedot yhdeksi rikkaaksi elämänkerraksi, joka kertoo koko tarinan!

Esimerkkejä haasteista ja kuinka ratkaisimme ne

Useita merkintöjä

Monet julkaistut kaupunkihakemistot säästivät ladonnassa (mikä oli kallista) ja paperikustannuksissa käyttämällä symboleja (ditto-merkintää tai ajatusviivoja) osoittamaan, että useilla merkinnöillä oli sama sukunimi. Jotkut merkinnät jatkuivat seuraavalle riville, kun taas toiset käyttivät vain yhtä riviä. Algoritmin oli ymmärrettävä ero sukunimitekstin ja sen alla usein näkyvän tekstin välillä.

Alla olevassa esimerkissä tietojen purkualgoritmi päätteli onnistuneesti, että Bartsch on sukunimi ja että seuraavan rivin ditto-merkki tarkoittaa myös Bartschia.

Record extraction algorithm infers surnames from ditto marks

Algoritmi päättelee myös, missä tieto alkaa ja päättyy. Esimerkiksi, alla oleva tieto on yhdellä rivillä:

Mutta tämä seuraava kahdella:

Ellei algoritmi olisi osannut päätellä tätä, olisimme luoneet ylimääräisen tietueen “Wallerille” emmekä olisi tunnistaneet sitä kadun nimeksi Wm F:n tietueessa. Vaikka prosessi toimii oikein hyvin, osassa hakemistoja tämän tyyppinen tietojen purkaminen ei ole 100%:n luotettavaan.

Lyhenteet

Jokaisen kaupunkihakemiston alussa on taulukko käytetyistä lyhenteistä. Siinä on kirjassa käytettyjen nimien, ammattien, asuinpaikkojen ja osoitteiden lyhenteet. Tietoja on usein vaikea tulkita ilman lyhennetaulukoita.

Abbreviation table from the 1931-1932 Jacksonville City Directory (click to zoom)

Integroidaksemme lyhennetaulukot kokoelmaan, näppäilimme manuaalisesti jokaisessa kirjassa olleen lyhennetaulukon ja käytimme sitä niiden lisäämiseksi tietoihin.

Käsittelemämme etunimien lyhenteet tässä kokoelmassa ovat erityisen hyödyllisiä, sillä jos etsit ”Patrickia”, löydämme hänet puolestasi jopa tiedoista, joissa hän on nimeltään “Patk”. Sinun ei tarvitse miettiä kaikkia mahdollisia tapoja etsiä kutakin nimeä – olemme tehneet sen puolestasi!

Seuraavassa esimerkissä olemme lisänneet ammattien lyhenteet: sten > stenographer, clk > clerk, työpaikan Fla Natl Bank > Florida National Bank ja asuinstatuksen r > rents. Tämä parantaa luettavuutta ja mahdollistaa etsinnän ja osumat sukupuuhun paljon suuremmalla tarkkuudella.

Tärkeitä tietoja kokoelmasta

Johtopäätöksiin perustuvat elämäntapahtumat

Yhdistetyt kaupunkihakemistotiedot antoivat MyHeritagelle mahdollisuuden tehdä muutosten perusteella päätelmiä avioliiton tai kuoleman päivämääristä automaattisesti.

Alla olevassa esimerkissä Kalifornian Oaklandista kotoisin oleva Henry Bennett meni todennäköisesti naimisiin loppuvuodesta 1923 tai vuoden 1924 alkupuolella. Oaklandin kaupunkiluettelossa vuodelta 1924 Nancy listataan hänen vaimonaan. Siksi loimme Nancylle avioliitotapahtuman, joka merkittiin selkeästi päätellyksi ja tapahtuneen noin vuonna 1924.

Seuraavassa esimerkissä Matthew ja Sally Lewin listataan puolisoina ja he asuvat yhdessä New Scotland Ave -kadun numerossa 305 New Yorkissa vuoteen 1945 saakka. Vuonna 1946 Sally listataan leskenä, joten päätelimme, että Matthew kuoli noin vuonna 1946.

Muutokset omistusasuntostatuksessa

Tiedoista voidaan nähdä, oliko osoitteessa asuva henkilö vuokralainen, joka yleensä merkittiin  ”r”-kirjaimella, jos kyseessä oli täysihoitolainen, oli merkintä ”b” tai jos henkilö omisti talon oli merkintä  ”h”.

Seuraamalla yhdistettyjä tietoja eri vuosilta voimme nähdä, muuttuiko joku vuokralaisesta saman kiinteistön omistajaksi.

Tässä esimerkissä näemme, että James Thompson oli vuokralainen vuoteen 1921 saakka. Joskus vuosien 1921 ja 1923 välillä hänestä tuli asuinpaikkansa omistaja.

Muiden samassa osoitteessa asuneiden etsiminen

Kaupunkihakemistojen kokoelman avulla käyttäjät voivat nähdä kuka muu on asunut samassa osoitteessa. Klikkaa hakusi tulossivulla linkkiä ”Katso, kuka muu asui tässä osoitteessa”.

Tämä ominaisuus voi olla hyödyllinen, kun yrität löytää etsimäsi esivanhemman jälkeläisiä tai muita perheenjäseniä, jotka asuivat samassa osoitteessa jonain toisena ajankohtana. Usein useita sukupolvia asui samassa osoitteessa tai koti oli voinut siirtyä sukupolvelta toiselle.

Seuraavassa esimerkissä James ja Glenna Japhet asuivat osoitteessa 623 W Olmos Drivessa San Antoniossa, Teksasissa.

Kun katsotaan kuka muu on asunut samassa osoitteessa, näemme että Jamesin ja Glennan lisäksi Laverne Japhet on listattu asuneeksi heidän kanssaan

Näyttää siltä, että Laverne on joko Jamesin toinen vaimotai sama henkilö kuin Glenna L. Tämä avaa uusia polkuja jatkotutkimukselle

Hinta

Hakujen tekeminen USA:n kaupunkihakemistoista on ilmaista, mutta tietojen katsominen edellyttää sopimusta.

Käyttäjät, joilla on Data- tai Complete-sopimus voivat tarkastella kaikkia tietoja ml. alkuperäisistä skannattuja korkearesoluutioisia kuvia, vahvistaa Record Matches-osumia, purkaa tietoja suoraan omaan sukupuuhunsa ja katsoa juuri tarkastelemaansa henkilöön liittyviä muita historiallisia tietoja.

Yhteenveto

Yhdysvaltojen kaupunkihakemistokokoelma MyHeritagessa on aarrearkku kaikille, jotka etsivät lisää tietoa USA:ssa eläneistä esivanhemmistaan. Olemme paiskineet kovasti töitä saadaksemme tämän kokoelman valmiiksi käyttäjillemme ja uskomme, että se on fiksuin koskaan tehty USA:n kaupunkihakemistojen kokoelma. Olemme suunnitelleet laajentavamme tätä kokoelmaa seuraavien lähikuukausien aikana julkaisemalla tuhansia uusia kaupunkihakemistoja. Lisäyksessä tulee olemaan kaupunkihakemistoja useista kaupungeista sekä hakemistoja, jotka on julkaistu ennen vuotta 1860 tai vuoden 1960 jälkeen.

Tee hakuja USA:n kaupunkihakemistoista nyt

Viihdy!

Jätä kommentti

Sähköposti pidetään yksityisenä eikä tule näkyviin