Html-tunnisteet epub-julkaisuissa

10.01.2023

Epub tukee html5-merkkauskieltä

Epub 3 -standardi sisältää tuen html5-merkkauskielelle. Se tarkoittaa, että epub-tiedostot voivat sisältää html5-kielen tunnisteita ja attribuutteja: epub-kirjojen lukuohjelmat tukevat näistä useimpia, mutta eivät välttämättä kaikkia. Kaikki html-tunnisteet on kätevästi listattu esimerkiksi All the Tags -sivustolle (englanniksi). Tässä artikkelissa käsitellään etenkin sellaisia tunnisteita, joita epub-julkaisuissa eniten käytetään. Tässä artikkelissa ei mainintoja enempää perehdytä attribuutteihin, joilla tunnisteita voi tarkentaa tai täsmentää .

Tekstisisällön kappaleet ja otsikot

Missä tahansa tekstivoittoisessa e-kirjassa on todennäköisesti määrällisesti eniten p-tunnistetta. P tulee sanasta paragraph, ja sillä merkitään käytännössä vähintään kaikki leipäteksti. Jokainen uusi tekstikappale sijaitsee oman p-tunnisteensa sisällä. Tekstinkäsittely- ja taitto-ohjelmissa rivinvaihto eli Enter-näppäimen lyönti synnyttää yleensä uuden kappaleen.

Eräs yleisimpiä saavutettavuusvaatimusten rikkomuksia on puolestaan se, että kaikki sisällöt on merkitty vain oletustunnisteella P, eli esimerkiksi otsikoille ei ole annettu otsikkotunnisteita.

Otsikoiden merkitseminen oikeilla tunnisteilla taas on välttämätöntä, jotta tiedoston sisällöissä olisi mahdollista liikkua myös ruudunlukuohjelmien avulla: ohjelma osaa näppäinkomennolla löytää otsikot, jolloin niihin on helppo siirtyä myös esimerkiksi siirtymättä ensin sisällysluetteloon.

Otsikoita merkitään tunnisteilla h1–h6. Määrittelyn mukaan kussakin html-tiedostossa tulisi olla vain yksi h1-tason otsikko. Hyvä tapa koostaa epub on jakaa kukin pääluku omaksi tekstitiedostokseen, jolloin jokainen pääotsikko on merkitty tunnisteella h1. On myös mahdollista sijoittaa kaikki tekstisisältö yhteen html-tiedostoon. Tällöin teoksen nimi on h1 ja varsinaiset tekstiotsikot h2 ja siitä eteenpäin. Sisällön muokattavuuden kannalta on kuitenkin hyvä suosia pääotsikoiden mukaan tehtyä tiedostojakoa, ainakin jos kyseessä on pitkä teos tai teoksessa on runsaasti alaotsikkotasoja (esim. tieteelliset julkaisut).

Otsikkotunnisteiden tulee noudattaa hierarkiaa: h1-tunnisteen alla voi olla yksi tai useita alaotsikoita, jotka merkitään tunnisteella h2. H2-alaotsikoiden alla voi olla alemman tason h3-otsikoita. H4-tason otsikko voi seurata vain tasoa h3. Tasojen yli ei siis saa hypätä. Hierarkiaa pitää noudattaa vain ”alaspäin”, h4-tason otsikkoa voi kyllä seurata uusi ylemmän tason otsikko.

Tekstielementtien erottelun avuksi

E-kirjoissa on usein myös erilaisia tekstielementtejä, jotka eivät ole varsinaista leipätekstiä tai siihen liittyviä otsikoita, vaan jotain muuta. Monille muillekin tekstityypeille on omia html-tunnisteita, joita kannattaa käyttää epub-julkaisuissa erityisesti silloin, kun tekstityypit erottuvat leipätekstistä visuaalisesti. Tunnisteilla varmistetaan, että kaikki käyttäjät saavat saman tiedon.

Aside-tunnisteella voi merkitä tekstejä, jotka painetun kirjan taitossa voivat olla esimerkiksi marginaaliin aseteltuja tekstejä, lisätietolaatikoita tai vastaavia leipätekstin kulun ohessa tai ulkopuolella olevia tekstejä.

Blockquote-tunnisteella merkitään mm. sitaatteja, lainauksia ja muita erottuvia katkelmia. Br-tunnisteella puolestaan voidaan merkitä kappaleen sisäisiä rivinvaihtoja, esimerkiksi runon säkeitä. Cite-tunnisteella taas voi merkitä lainauksen lähteen.

Listaelementtien merkintään käytetään ul- ja ol-tunnisteita. Ensin mainittu tulee sanoista unordered list ja tarkoittaa luetteloa, jonka osat eivät ole missään määrätyssä, esim. numerojärjestyksessä. Ul-listoissa on yleensä visuaalisena erottimena listakohteen edellä yhdysmerkki tai pallosymboli. Ol-tunniste puolestaan on ordered list, siis luettelo, jonka osat ovat tietyssä järjestyksessä. Järjestystä merkitään useimmiten numeroin, joskus myös aakkosin. Sanasto-tyyppiset listat taas voi merkitä tunnisteella dl. Tällainen lista koostuu yleensä dt– ja dd-tunnisteita. Dt tarkoittaa selitettävää termiä, dd itse selitystä. Hyödyllisiä tunnisteita vaikkapa kielten sanastoissa!

Hr-tunnisteella voidaan merkitä kontekstin, aihepiirin tai kertojan muutosta. Visuaalisesti tällaisissa kohdissa on usein joko normaalia kappaleväliä pidempi tyhjä tila, vaakasuuntainen erotinviiva tai koristeellinen vinjetti.

Em ja strong puolestaan korostavat sanoja. Visuaalisesti strong-tunnisteen erottaa yleensä lihavoinnista ja em-tunnisteen kursivoinnista.

Erittäin lyhyt tunniste a tarkoittaa puolestaan hyperlinkkiä. E-kirjoissa sekä kirjan sisäiset (esimerkiksi loppuviitteet) että mahdolliset ulkoiset linkit merkitään a-tunnisteella.

Kuviin liittyviä tunnisteita

Myös sisällön kuvat vaativat tiettyjä tunnisteita: näistä tutuimpia ovat img ja figure. Yksittäinen kuva upotetaan koodiin img-tunnisteella, joka siis kertoo, että kyseessä on kuva. Epub-julkaisuissa img-tunniste on usein figure-tunnisteen sisällä. Figure edustaa leipätekstistä erillistä kokonaisuutta, se voi siis kuvan lisäksi olla esimerkiksi katkelma koodia tai muu oma erillinen kokonaisuutensa. Figure-tunniste voi sisältää vielä figcaption-tunnisteen, joka siis nimensä mukaisesti kertoo elementin sisällöstä. Lisäksi kuvien kanssa käytetään monia attribuutteja, kuten kuvan lähteen kertova src ja vaihtoehtoisen tekstin sisältävä alt.

Esimerkki figure-koodauksesta

                                                            <figure>
        <img src="bortsu.jpg" alt="Keskikokoinen, mustavalkoinen koira.">
        <figcaption>Bordercollie on suosittu harrastuskoira.</figcaption>
    </figure>

Taulukoiden tunnisteita

Jotta datataulukko olisi saavutettava kaikille lukijoille, se tulisi tehdä html-taulukkona, ei siis esimerkiksi kuvana taulukosta. Html-merkkaus mahdollistaa monimutkaistenkin taulukoiden solujen, rivien ja sarakkeiden esittämisen johdonmukaisella tavalla. Valitettavasti monet julkaisuohjelmat – esimerkiksi Word tai InDesign – tarjoavat vain alkeellisen taulukkoeditorin, jolloin monimutkaiset taulukot vaativat yleensä koodin muokkaamista jälkikäteen.

Taulukoiden tunnisteita ovat table, jolla merkataan koko taulukko. Verrattain yksinkertaisten taulukoiden merkkaukseen riittävät tunnisteet tr (table row eli taulukkorivi), th (table header eli otsikkosolu) ja td (table data eli datasolu). Monimutkaisempien taulukoiden sisällön ryhmittelyyn käytetään myös mm. tbody-, thead– ja tfoot-tunnisteita sekä sarakkaiden ja rivien luokitteluun tunnisteita colgroup ja rowgroup. Taulukot voivat lisäksi sisältää selventäviä attribuutteja, kuten id ja scope.

Ei-semanttiset tunnisteet

Kaikki e-kirjoissa käytetyt html-tunnisteet eivät ole semanttisia, eli ne eivät välttämättä kanna mitään tarkempaa merkitystä. Yleisimmät tällaisista tunnisteista ovat span ja div. Molemmat ovat ns. säilötunnisteita, joiden avulla sisältöä voi ryhmitellä osioihin, jolloin niiden editointi helpottuu. Span-tunnisteella voi myös määritellä esimerkiksi yksittäiselle sanalle tai tekstikappaleelle tiedoston pääkielestä poikkeavan kielen. Tällöin span-tunnisteiden väliin merkitään toisella kielellä oleva tekstikohta, ja sille määritetään kieli lang-attribuutilla.

Kielen merkkaus span-tunnisteen avulla

                                                        <p>Victor Hugon tunnetuin romaani on 1862 ilmestynyt <span lang="fr">Les Misérables</span>eli Kurjat.</p>

Tässäkö kaikki?

Html-merkkausta taitavat varmasti huomasivatkin, että tässä tekstissä ei käsitelty aivan kaikkia html-tunnisteita, joita e-kirjat saattavat sisältää. Lisäksi tunnisteita voi – ja usein täytyykin – täsmentää attribuuteilla. Joskus tunnisteet ja attribuutitkaan eivät välitä oleellista tietoa saavutettavalla tavalla, joten e-kirjoissa on mahdollista hyödyntää myös ns. ARIA-merkintöjä, erityisesti dpub ARIA -rooleja. Koko termi muodostuu sanoista Accessible Rich Internet Applications digital publishing roles . Rooleilla voi tarkasti määritellä esimerkiksi erilaisia sisältötyyppejä, kuten hakemiston, kirjallisuusluettelon tai vaikkapa epilogin. Näistä kuitenkin lisää myöhemmin!