Language, Speech and Multimedia Technologies Observatory
08/11/2011 - 06:40

The W3C has formed a new online community group specifically for semantic web news. According to the homepage, “The Semantic News Community Group is a forum for exploring the intersection of W3C semantic technologies and news gathering, production, distribution and consumption. It will focus on a common representation for abstract ideas in the news domain such as a ‘news event’ or a domain ontology for news.” continued…

New Career Opportunities Daily: The best jobs in media.
08/05/2011 - 20:20

Dr. Markus Krötzsch has announced the release of Semantic MediaWiki 1.6.0 (SMW). The announcement states, “SMW is a popular free and open source content management system based on the MediaWiki software that powers Wikipedia. It adds capabilities of semantic data management, querying, and export. Many extensions to SMW are available for adding further features ranging from faceted data browsing to RDFa support.” continued…

New Career Opportunities Daily: The best jobs in media.
08/02/2011 - 08:35

Loquendo teams with to offer text-to-speech on flashcard sets in 12 languages.
07/21/2011 - 13:35

A recent article reports, “Draft version 0.5 of rNews, a standard model for embedding machine-readable metadata in online news, was approved at the International Press Telecommunications Council’s [IPTC] Annual General Meeting in Berlin, Germany. This version clarifies, simplifies and expands the rNews model and incorporates much of the feedback that the IPTC has received about the first draft. The IPTC is also releasing the recommended RDFa implementation for rNews 0.5 and plans to provide mappings to other markup mechanisms, such as HTML5 microdata and JSON. This will give publishers a choice of how to implement the model, using the technologies that best meet their needs.” continued…

New Career Opportunities Daily: The best jobs in media.
07/21/2011 - 13:35

I'm using ACL/ICML as an excuse to jumpstart my resumed, hopefully regular, posting.  The usual "I didn't see/read everything" applies to all of this.  My general feeling about ACL (which was echoed by several other participants) was that the program was quite strong, but there weren't many papers that really stood out as especially great.  Here are some papers I liked and some attached thoughts, from ACL:

P11-1002 [bib]: Sujith Ravi; Kevin Knight
Deciphering Foreign LanguageThis paper is about building MT systems without parallel data.  There's been a bunch of work in this area.  The idea here is that if I have English text, I can build an English LM.  If you give me some French text and I hallucinate a F2E MT system, then it's output had better score high on the English LM.

P11-1020 [bib] [dataset]: David Chen; William Dolan
Collecting Highly Parallel Data for Paraphrase Evaluation
Although this paper is about paraphrasing, the fun part is the YouTube stuff they did.  Read it and see :).

P11-1060 [bib]: Percy Liang; Michael Jordan; Dan Klein
Learning Dependency-Based Compositional Semantics
This paper is along the lines of semantic parsing stuff that various people (Ray Mooney, Luke Zettlemoyer/Mike Collins, etc.) have been doing.  It's a nice compositional model that is learned online.

P11-1099 [bib]: Vanessa Wei Feng; Graeme Hirst
Classifying arguments by scheme
This paper is about argumentation (in the "debate" sense) and identifying different argumentation types.  There are some nice correlations with discourse theory, but in a different context.

P11-2037 [bib]: Shu Cai; David Chiang; Yoav Goldberg
Language-Independent Parsing with Empty Elements
I'm really glad to see that people are starting to take this problem seriously again.  This falls under the category of "if you've ever actually tried to use a parser to do something then you need this."

Okay so that's not that many papers, but I did "accidentally" skip some sections.  So you're on your own for the rest.

For ICML, I actually felt it was more of a mixed bag.  Here are some things that stood out as cool:

Minimum Probability Flow Learning 
Jascha Sohl-Dickstein; Peter Battaglino; Michael DeWeese
This is one that I need to actually go read, because it seems too good to be true.  If computing a partition function ever made you squirm, read this paper.

Tree-Structured Infinite Sparse Factor Model 
XianXing Zhang; David Dunson; Lawrence Carin
This is trying to do factor analysis with tree factors; they use a "multiplicative gamma process" to accomplish it. This is something we tried to do a while ago, but could never really figure out how to do it.

Sparse Additive Generative Models of Text 
Jacob Eisenstein; Amr Ahmed; Eric Xing
The idea here is that if you're learning a model of text, don't re-learn the same "general background" distribution over and over again.  Then learn class- or topic-specific stuff as a sparse amendment to that background.

OptiML: An Implicitly Parallel Domain-Specific Language for Machine Learning 
Arvind Sujeeth; HyoukJoong Lee; Kevin Brown; Tiark Rompf; Hassan Chafi; Michael Wu; Anand Atreya; Martin Odersky; Kunle Olukotun
Six more words: Most authors ever on ICML paper.

Generalized Boosting Algorithms for Convex Optimization 
Alexander Grubb; Drew Bagnell
Suppose you want to boost something that's non-smooth?  Now you can do it.  Has nice applications in imitation learning, which is I suppose why I like it.

Learning from Multiple Outlooks 
Maayan Harel; Shie Mannor
This is a nice approach based on distribution mapping to the problem of multiview learning when you don't have data with parallel views.  (I'm not sure that we need a new name for this task, but I still like the paper.)

Parsing Natural Scenes and Natural Language with Recursive Neural Networks
Richard Socher; Cliff Chiung-Yu Lin; Andrew Ng; Chris Manning
This is basically about learning compositional semantics for vector space models of text, something that I think is really interesting and understudied (Mirella Lapata has done some stuff).  The basic idea is that if "red" is embedded at position x, and "sparrow" is embedded at y, then the embedding of the phrase "red sparrow" should be at f([x y]) where f is some neural network.  Trained to get good representations for parsing.

Please reply in comments if you had other papers you liked!!!
07/21/2011 - 12:30

A quirky new article likens search engines to humongous babies. The article states, “You can’t expect it to understand complicated things. You would never try to teach language to a human baby by reading it Nietzsche, and you shouldn’t expect a baby google to learn bibliographic data by feeding it MARC (or RDA or METS or MODS, or even ONIX). When a baby says ‘goo-goo’ to you, you don’t criticize its misuse of the subjunctive. You say ‘goo-goo’ back. When Google tells you that that it wants to hear ‘’ microdata, you don’t try to tell it about the first indicator of the 856 ‡u subfield. You give it microdata, no matter how babyish that seems.” continued…

New Career Opportunities Daily: The best jobs in media.
07/21/2011 - 12:30

Posted by Daniel Ford and Josh Batson

The web is vast and infinite. Its pages link together in a complex network, containing remarkable structures and patterns. Some of the clearest patterns relate to language.

Most web pages link to other pages on the same web site, and the few off-site links they have are almost always to other pages in the same language. It's as if each language has its own web which is loosely linked to the webs of other languages. However, there are a small but significant number of off-site links between languages. These give tantalizing hints of the world beyond the virtual.

To see the connections between languages, start by taking the several billion most important pages on the web in 2008, including all pages in smaller languages, and look at the off-site links between these pages. The particular choice of pages in our corpus here reflects decisions about what is `important'. For example, in a language with few pages every page is considered important, while for languages with more pages some selection method is required, based on pagerank for example.

We can use our corpus to draw a very simple graph of the web, with a node for each language and an edge between two languages if more than one percent of the offsite links in the first language land on pages in the second. To make things a little clearer, we only show the languages which have at least a hundred thousand pages and have a strong link with another language, meaning at least 1% of off-site links go to that language. We also leave out English, which we'll discuss more in a moment. (Figure 1)

Looking at the language web in 2008, we see a surprisingly clear map of Europe and Asia.

The language linkages invite explanations around geopolitics, linguistics, and historical associations.

Figure 1: Language links on the web. 

The outlines of the Iberian and Scandinavian Peninsulas are clearly visible, which suggest geographic rather than purely linguistic associations.

Examining links between other languages, it seems that many are explained by people and communities which speak both languages.

The language webs of many former Soviet republics link back to the Russian web, with the strongest link from Ukrainian. While Russia is the major importer of Ukrainian products, the bilingual nature of Ukraine is a more plausible explanation. Most Ukrainians speak both languages, and Russian is even the dominant language in large parts of the country.

The link from Arabic to French speaks to the long connection between France and its former colonies. In many of these countries Arabic and French are now commonly spoken together, and there has been significant emigration from these countries to France.

Another strong link is between the Malay/Malaysian and Indonesian webs. Malaysia and Indonesia share a border, but more importantly the languages are nearly eighty percent cognate, meaning speakers of one can easily understand the other.

What about the sizes of each language web? Both the number of sites in each language and the number of urls seen by Google's crawler follow an exponential distribution, although the ordering for each is slightly different (Figure 2). The exact number of pages in each language in 2008 is unknown, since multiple urls may point to the same page and some pages may not have been seen at all. However, the language of an un-crawled url can be guessed by the dominant language of its site. In fact, calendar pages and other infinite spaces mean that there really are an unlimited number of pages on the web, though some are more useful than others.

Figure 2: The number of sites and seen urls per language are roughly exponentially distributed. 

The largest language on the web, in terms of size and centrality, has always been English, but where is it on our map?

Every language on the web has strong links to English, usually with around twenty percent of offsite links and occasionally over forty five percent, such as from Tagalog/Filipino, spoken in the Philippines, and Urdu, principally spoken in Pakistan (Figure 3). Both the Philippines and Pakistan are former British colonies where English is one of the two official languages.

Figure 3: Language links to and from English 

You might wonder whether off-site links landing on English pages can be explained simply by the number of English pages available to be linked to. The webs of other languages in our corpus typically have sixty to eighty percent of their out-language links to English pages. However, only 38 percent of the pages and 42 percent of sites in our set are English, while it attracts 79 percent of all out-language links from other languages.

Chinese and Japanese also seem unusual because there are relatively few links from pages in these languages to pages in English. This is despite the fact that Japanese and Chinese sites are the most popular non-English sites for English sites to link to. However, the number of sites in a language is a strong predictor of its `introversion', or fraction of off-site links to pages in the same language. Taking this into account shows that Chinese and Japanese webs are not unusually introverted given their size. In general, language webs with more sites are more introverted, perhaps due to better availability of content. (Figure 4)

Figure 4: Language size vs introversion. 

There is a roughly linear relationship between the (log) number of sites in a language and the fraction of off-site links which point to pages in the same language, with a correlation of 0.9 if English is removed. However, only 45 percent of off-site links from English pages are to other English pages, making English the most extroverted web language given its size. Other notable outliers are the Hindi web, which is unusually introverted, and the Tagalog and Malay webs which are unusually extroverted.

We can generate another map by connecting languages if the number of links from one to the other is 50 times greater than expected given the number of out-of-language links and the size of the language linked to (Figure 5). This time, the native languages of India show up clearly. Surprising links include those from Hindi to Ukrainian, Kurdish to Swedish, Swahili to Tagalog and Bengali, and Esperanto to Polish.

Figure 5: Unexpected connections, given the size of each language. 

What's happened since 2008? The languages of the web have become more densely connected. There is now significant content in even more languages, and these languages are more closely linked. We hope that tools like Google page translation, voice translation, and other services will accelerate this process and bring more people in the world closer together, whichever languages they speak.

UPDATE 9 July 2011: As has been pointed out in the comments, in both the Philippines and Pakistan, English is one of the two official languages; however, the Philippines was not a British colony.
06/23/2011 - 14:25

Ikerbasque elkarteak gonbidatuta, Bilbon izan da egunotan Tanja Schultz informatikari alemaniarra. Hizkuntzak eta
06/17/2011 - 12:45
Arropa edo altzariak bezala, hitz batzuk ere modan jartzen dira. Modan dagoena, berriz, jende askori liluragarria gertatzen zaio. Horixe ari da gertatzen gaur egun "semantiko" izenondoarekin. Asko dira teknologia semantikoa, web semantikoa, marketin semantikoa, etab. eskaintzen dutenak, baina kontuz ibili behar izaten da, zeren txakur guztiak ehiza-txakurrak ez diren bezala, "semantiko" izenondoa daramaten gauza guztiek ere ez dute berdin balio. Horregatik, egokia da hornitzaile bat zerbait "semantikoa" eskaintzen datorrenean, dakarren horri azaleko pintura pixka bat harrotu eta azpian zer duen begiratzea.
Gai honi buruzko sarrera gisa, nire Teknologia semantikoa oso gaingiroki artikulua irakur dezakezu.
Ondoko lerroetan hornitzaile horri egin beharreko zenbait galderaz mintzatuko naiz.

Sare semantikoari buruzko galderak

Sare semantiko bat kontzeptu multzo bateko kontzeptuen artean dauden erlazio semantikoak adierazteko bide bat da. Ikus, esate baterako, EuroWordNet
  1. Nola funtzionatzen du zure sare semantikoak? Nola ebazten ditu anbiguotasunak zure softwareak?
  2. Badago modurik sare semantiko hori nik erabiltzen ditudan edukietara moldatzeko?
  3. Sare semantiko desberdinak eskain al ditzakezu sektore desberdinetarako?
Taxonomiari buruzko galderak

Taxonomia bat kontzeptu edo kategoria multzo baten antolaketa hierarkikoa, zuhaitz erakoa, da. Kategoria bakoitzari adabegi bat dagokio zuhaitzean. Taxonomiak erabiltzen dituen sistema bat aztertzen ari baldin bagara, galdera egokiak hauek dira:
  1. Nola sor dezaket kategoria bat? eta nola defini dezaket kategoria horretakoak zer informazio mota diren zehazten duen erregela?.
  2. Sortu ditudan kategoriak eta definizioak ez badizkidate nahi nituzkeen emaitzak ematen, nola alda ditzaket?
  3. Zenbat adabegi eta maila sor ditzaket taxonomian?
Edukien bilketari buruzko galderak

Edukiak bildu eta sailkatzeko sistemek, sare batean dauden informazioak arakatzeko, armiarmak deritzen programa batzuk izaten dituzte.

  1. Nola sor ditzaket armiarmak, egituratu gabeko datuak arakatu, eta bildu nahi ditudanak identifikatzeko?
  2. Bil ditzaket datuak denbora errealean?
  3. Bil ditzaket datuak gaiaren arabera?

Emaitzen formatuari buruzko galderak
Dokumentuak indexatu ostean zer formatutan geratzen dira egituratuak, XML, RDF?
06/17/2011 - 12:45

Zertako prestatu dudan idazki hau

Gaur egun web semantikoa, bilaketa semantikoak, teknologia semantikoa eta antzekoak hitzetik hortzera aipatzen dira, baina gehienok ez dakigu zehazki ez zer diren eta ez praktikan zertan erabiltzen diren. Panorama hori axaletik bederen argitzea izan da nire helburua.

Teknologia semantikoaren xedea  

Interneten bikaletak egiten ditugunean, jasotzen dugun emaitzen kopurua izugarri handia izaten da beti. Erantzun horietako gutxi batzuk arakatzen ditugu eta beste guztiak begiratu ere gabe baztertzen ditugu, nahiz eta, again, harribitxi batzuk baztertuen artean egon. Enpresetako intraneten edo sareen barruan ere gauza bera gertatzen da. Egoera horrek ez gaitu asebetetzen, eta teknologia semantikoan dugu jarria emaitza esanguratsuagoak lortzeko esperantza.

Nahi genukeena da, edonork, informatikaria izan gabe, software egokia erabili ahal izatea, galderak modu erosoan egin eta erantzun esanguratsuak lortzeko, esan nahi baita interesatzen den informazio guztia eta hura bakarrik eskuratzeko.

Enpresaren kasuan, makina baten planoak, bezero baten fakturak, higiezin baten eskriturak, eta abar izan daitezke bilatu nahi diren dokumentuak.

Tresna semantikoen sailkapena

Hemen aztertuko ditugun tresna semantikoen arloak honako hauek izango dira:

  • Testu meatzaritza eta testuen analisia
  • Kontzeptuen eta entitateen erauzketa
  • Kontzeptuen analisia
  • Hizkuntzaren prozesamendua
  • Edukien normalizazioa
  • Hainbat iturritatik jasotako informazioak bateratzea
  • Sentimenduen analisia
  • Autokategorizazioa

Ondoren, banan-banan aztertuko ditugu arlo horiek.

Testuen meatzaritza eta testuen analisia

Jarduera horien xedea testuetatik informazio esanguratsua ateratzea da. Helburu hori lortzeko, hainbat teknika konbinatzen dira: ikaskuntza automatikoa, hizkuntzaren prozesamendua, informazioaren erauzketa eta informazioa aurkitzeko algoritmo matematikoak. Arloaren barruan zenbait azpiarlo bereiz daitezke:

  • Gakohitzen erauzketa

    Dokumentu bati dagozkion gakoitzak dokumentu horren edukiaren muina forma kondentsatuan adierazten duten hitzak edo hitz multzoak dira. Gakohitzen erauzketa da, hain zuzen, erabiltzaileak egin duen galdera identifikatzeko lehen urratsa. Adibidez, galderak “nor” hitza badarama, ondoriozta daiteke bilatzen den erantzuna pertsona-izen bat dela, eta galdera “non” baldin bada, aldiz, leku-izen bat bilatzen dela. Beste gakohitz batzuk “zenbat”, “noiz”, etab. izan daitezke. Zoritxarrez beste galdera batzuk askoz anbiguoagoak izaten dira. Hitzen kategoria gramatikala etiketatzeko teknikak eta analisi sintaktikoa ere erabiltzen dira bilatzen den erantzun mota identifikatzeko. Testuingurua ulertzeko, WordNet, FrameNet edo VerbNet moduko hiztegi bat erabil daiteke.

    Behin galdera mota identifikatuz gero, informazioa bilatzeko sistema bat erabil daiteke, hari dagozkion gakohitzak dauzkaten dokumentuak bilatzeko. Galderak “nor” edo “non” motakoak izanez gero, entitate-erauzle bat erabil daiteke bilaketa zehazteko.

    Gakohitzak identifikatzeko, testua hitz solteka eta hitz-segidaka zatikatzen da, eta horiek gakohitz izateko hautagaitzat hartzen dira. Gero hautagai horiek aldi berean zenbat aldiz ageri diren zenbatzen da eta zenbait irizpide aplikatuz, konbinazio bakoitzari pisu bat ematen zaio, eta pisu batetik gorakoak hartzen dira gakohitz bezala. Hainbat irizpide erabil daitezke, ez guztiak eraginkortasun berekoak.

    Biltegi bateko dokumentu guztiak hizkuntza berekoak direnean baino konplikatuagoa da, jakina, hainbat hizkuntzatakoak direnen kasua. Azken finean, arazoaren gakoa eredu algebraiko egokia asmatzean datza. Matrizeen kalkuluaren ingurukoak izaten dira arazoak, eta kalkulu hori azken urteotan estatistikaren bidetik joan da.
  • Sailkapena eta taldekatzea

    Testuen sailkapenaren xedea aldez aurretik zehazturiko sailkapen-eredu baten arabera, testu multzo bateko dokumentuak sailka banatzea da. Hori lortzeko bide bat hainbat adibide eskuz sailkatzea da eta, ikasketa-algoritmo bat erabiliz, dokumentu berriak haiekiko hurbiltasunaren arabera sailkatzea. Eredu bakarra hasieratik zehaztea zaila izaten denez, hainbat eredu zehaztu eta haien zehaztasuna konparatzeko ebaluazio-metodoak erabiltzen dira.

    Eredu baten zehaztasunak zerikusi handia du ikasketa egiteko erabiltzen den laginak zehaztu nahi den sailkapenarekiko duen adierazgarritasunarekin.

    Ikasketarako laginak erabili ordez, beste batzuetan, sailkatzeko aurkezten diren dokumentuen edukiak konparatzen dira haiek taldekatzeko. Dokumentu batekiko antzik handiena eta besteekiko desberdintasunik handiena duten dokumentuak erreferentziazkotzat hartu denaren talde berean sartzen dira eta konparazio hori dokumentu guztien artean egiten da. Taldekatzeko teknika asko daude.
  • Anomalien eta joeren detekzioa

    Testu-multzo batean agertu behar ez luketen forma edo ereduak atzematea da anomaliak detektatzea. Anomalien detekzioa hainbat arlotan aplikatzen da, hala nola intrusioen, iruzurren, hutsegiteen, osasun-asalduren, sentsore-sareetan edo ekosistemetan sorturiko alarmen detekzioan.

    Anomaliak detektatzeko sistema batek ezagunak diren eta ontzat ematen diren formak eta ezezagunak direlako txartzat ematen diren formak bereizten ditu. Batzuetan, ezezaguna den forma ez da txartzat ematen, baizik eta ezagutzea interesgarria izan daitekeen berrikuntzatzat.
    Adibidez, helburua dokumentu baten bertsio desberdinetan izan diren aldaketak atzematea denean.

    Zenbait teknika desberdin erabiltzen dira anomaliak detektatzeko:

    - Normaltzat eta anormaltzat ematen diren adibideak ikasteko erabiliz eta gero sailkatu nahi diren kasuak horiekin konparatuz, normaltzat edo anormaltzat hartzeko probabilitate-maila batekin.

    - Portaera normalaren eredutzat hartuko den datu-multzo bat prestatuz eta ondoren eredu horrek kasu berri jakin bat sortzeko probabilitatea neurtuz.

    - Datu-multzoko elementu gehienak normalak direla suposatuz eta gehiengotik saihesten direnak atzemanez.

    Agertzen ari diren joeren detekzioa da antzeko beste jarduera bat. Denbora igaro ahala pisua hartzen ari den gai bat da agertzen ari den joera bat. Adibidez, informatika-munduan “tablet” terminoa gero eta gehiago ari da agertzen 2000. urtetik hona.

    Sortzen ari diren joerak atzematea interes handikoa da, enpresetako marketin-sailentzat, esate baterako.

    Joerak detektatzeko aplikazio batek, testu-multzo berri bat sartzen zaionean, erreferentziakotzat duen corpus batekin konparatzen du, multzo berrian pisua hartzen ari den gairen bat ageri den ikusteko.
    Badira aplikazio guztiz automatikoak eta erdi-automatikoak.

    Sistema guztiz automatikoek corpusa arakatzen dute eta gai berriak izan daitezkeenak zerrendatzen dituzte, gero giza operadore batek azter ditzan eta erabaki dezan benetan gai berriak diren edo ez. Erdi-automatikoetan, berriz, gizakiak sartzen duen testua konparatzen dacorpusarekin.


Denboran zehar sortzen diren testu-multzo erlazionatuak dira. Adibidez, gai bati buruz agertzen diren artikuluak edo posta-mezuen hariak. Azken finean hauen tratamendua anomalien eta joeren detekzioaren kasu partikular bat dela esan daiteke. Izan ere, bat-batean agertzen diren elementu berriak edo denboran zehar gertatzen diren aldaketak atzematea izaten da helburua.

Kontzeptuen eta entitateen erauzketa

Goian esan bezala, teknologia semantikoaren helburuetako bat bilaketa esanguratsuagoak lortzea da. Kontzeptuen eta entitateen erauzketa da, hain zuzen, horretan lagundu dezakeen teknika bat.

Esate baterako, web orri batean dauden kontzeptuak zein diren automatikoki agertuko balitzaizkio bilaketa egiten duenari, bilaketaren emaitza gisa agertzen zaizkion erantzun guztietatik errazago aukeratu ahal izango lituzke benetan interesatzen zaizkionak.

Hizkuntza aldetik, kontzeptu bat ager daiteke hitz bakarreko termino gisa, adibidez motor, edo hitz anitzeko unitate lexikal gisa, adibidez, motor asinkrono trifasiko.

Kontzeptuak erauzteko aplikazio batek, sinpleki esanda, testua zatikatzen du hitzetan, irazten ditu kodea izan daitezkeenak (html etiketak-eta) eta hitz hutsak (aditz laguntzailearen formak, baina moduko juntagailuak, eta abar), puntuazio-zeinuak eta karaktere bereziak, gero hitzen maiztasunak neurtzen ditu eta maiztasunen araberako pisua atxikitzen dio hitz bakoitzari. Pisu batetik gorako hitzak termino izateko hautagaitzat hartzen dira. Bestetik kontuan izan behar da hitz anitzeko unitate lexikalak atzemateak hitz bakoitzaren ingurunea, “leiho” bat, aztertzera behartzen duela.

Entitateak ezaugarri semantiko interesgarriak dituzten testu-elementuak dira. Esate baterako, entitateak dira pertsona-izenak, leku-izenak, enpresen edo produktuen izenak, datak, telefono-zenbakiak edo prezioak. Hortaz, entitateak erauztea horrelako hitz edo hitz-multzoei aldez aurretik zehazturiko etiketak atxikitzea da.

Lan hori egiteko hainbat teknika daude, batzuk gramatika-erregeletan oinarrituak eta beste batzuk estatistikoak.

Posta-kodeak izan daitezkeen karaktere-segidak identifikatzen laguntzen du, adibidez, bost zifraz osaturikoak bilatzeak, edo izen propioen hautagaiak izango dira maiuskulaz hasten direnak. Alabaina, hautagai horietatik erauzi beharrekoak zein diren erabakitzeak arazo konplexuak gainditzea eskatzen du. Horretan lagungarri gertatzen da kasu batzuetan erreferentziazko hiztegiak izatea.

Adibide egoki bat osasun-arloko dokumentazioak eskaintzen digu. Osasun-arloko testuetako terminologian garrantzi handia du sinonimoak, hiperonimoak eta hiponimoak bereizteak. Hori dela eta, ontologiak garatu dituzte terminologiaren sistema errepresentatzeko. Ontologia bat hiztegi kontrolatu bat da, terminoen definizioak eta terminoen arteko erlazioak zehaztuak dituena eta gizakiek nahiz sistema informatikoek interpreta dezaketena.

Horrekin batera, osasun-arloko profesionalek hizkuntza naturalez egiten dituzten desbribapenetetatik kontzeptuak erauzteko sistemak garatu dituzte, gero bilaketetan eta bilaturiko emaitzen egokitasunaren balorazioan lagungarri gerta daitezen.

Kontzeptuen analisia

Goraxeago esan bezala, informazio-sistema batean taxonomia edo kontzeptu-egiturak garrantzitsuak dira bilaketak eta sailkapenak errazteko.

Kontzeptu bat defini daiteke bere hedaduraren eta intentsioaren arabera. Kontzeptuak hartzen dituen objektuen multzoa da hedadura, eta intentsioa, berriz, objektu horiek partekatzen dituzten atributuen multzoa da. Arlo bateko kontzeptuen eta atributuen arteko erlazioek sare bat osatzen dute, diagrama batez adieraz daitekeena. Arlo horretaz arduratzen den zientzia-adarra, Kontzeptuen Analisi Formala oso baliagarria gertatu da informazio-bilaketan eta baita testu-corpusetatik kontzeptu-hierarkiak erauzteko ere.

Hizkuntzaren prozesamendua

Bilaketa-sistema batean ideala litzateke erabiltzaileak hizkuntza libreki erabili ahal izatea, zer aurkitu nahi duen adierazteko. Alabaina, hizkuntzak, hizkuntza naturalak, baditu hori zaila egiten duten ezaugarri batzuk: ideia berbera hainbat modutan adierazi ahal izatea batetik eta anbiguotasuna edo esakune batek interpretazio bat baino gehiago izatea, bestetik.

Horregatik, hizkuntza naturala erabiliz egiten den bilaketa batek agian ez du emaitzarik sortuko, sistemak galdera ulertzen ez badu, nahiz eta berez galdera horri erantzungo lioketen edukiak izan sistemaren barruan, eta anbiguotasunaren eraginez galderari ez dagozkion emaitzak ere sor ditzake. Hizkuntza prozesatzeko teknikek arazo horiek gainditzen laguntzen dute.

Hizkuntza prozesatzeko teknikak bi sail handitakoak izan daitezke:

  1. teknika estatistikoetan oinarrituak
  2. tratamendu linguistikoan oinarrituak

Gaur egun, bi teknikak konbinatzeko joera ari da nagusitzen.

Teknika estatistikoetan oinarrituriko sistemek dokumentuetako hitz guztiak erabiltzen dituzte. Bakoitzari pisu bat esleitzen zaio garrantziaren arabera, eskuarki agerpen-maiztasunaren arabera, eta galderan erabiltzen diren hitzak aurkibidean gorde direnekin konparatzen dira, galderari erantzuten dioten dokumentuak aurkitzeko.

Hitz batek dokumentu bat ondo ordezkatzen duen ikusteko, dokumentu bakoitzean hitz hark duen agerpen-maiztasuna beste dokumentuetan duen agerpen-maiztasunarekin konparatzen da. Lehenbizikoa handia baldin bada bigarrenaren aldean hitzak ondo ordezkatzen du dokumentua, baina alderantzizkoa gertatzen bada edo dokumentu guztietan antzeko balioa baldin badu hitz baten maiztasunak hitz horrek ez du dokumentua ondo ordezkatzen.

Hitz solteez gainera hitz anitzeko unitate lexikalak atzematea ere interesatzen da, hitz konposatuak eta beste sintagma batzuk ere garrantzizkoak izan daitezkeelako: paper-fabrika, disko gogor eta horrelakoak.

Bestetik, testu baten barruan hainbat hitz huts daude: dut, eta, agian, ... Horiek ez dira aintzakotzat hartzen.

Ezagutza linguistikoan oinarrituriko sistemak erabiltzen direnean testuak zenbait mailatan analizatzen dira: morfologikoa eta agian sintaktikoa eta semantikoa. Maila bakoitzeko analisiak anotazioak sartzen ditu testuan: lema, kategoria gramatikala, etab. Mailarik arruntena morfologikoa da. Sintaktikoa eta batez ere semantikoa zailagoak dira.

Edukien normalizazioa

Eduki erdiegituratuak normalizatzea adierazpen, formatu edo egitura estandar batera eraldatzea da.

Antzeko atributuak izanik ere nomenklatura desberdinaz adieraziak dituzten dokumentuak forma estandar erkide batean jartzeak asko errazten du haien analisi semantikoa. Hori lortzeko urratsak, hain zuzen ere, analisia, kontzeptuen eta entitateen erauzketa eta eraldaketa dira. Normalizazioa beharrezkoa izaten da biltegi desberdinetan kudeatzen diren datuak batera erabili behar direnean. Esate baterako datu klinikoak trukatu behar dituzten osasun-sistemek arazo hori izaten dute.

Hainbat iturritatik jasotako informazioak bateratzea

Batzuetan bilaketa bat hainbat sistematan aldi berean egiten da eta gero emaitzak batu egin behar izaten dira. Hor sortzen da normalizatu beharra, eta ondoren egitura jakin baten arabera antolaturik eskainzen zaizkio emaitzak galdera egin duenari.


Testuek garraiatzen duten informazioa funtsean bi motatakoa izan daiteke: entitateei, gertaerei eta haien ezaugarriei buruzko adierazpen objetiboak, adibidez Berlin Alemanian dago, eta iritziak, hau da, norbaitek entitateei, gertaerei eta haien ezugarriei buruz adierazten dituen sentimenduak edo balorazioak, esate baterako Athleticek atzo partida bikaina jokatu zuen.

Azken urteotan sentimendu-analisia indar handia hartzen ari da. Izan ere, erabaki asko hartzen dira jendearen sentimenduen arabera, adibidez burtsako kotizazioek merkatuko sentimenduarekin zerikusi handia dute. Beti izan du garrantzia arlo horrek, baina amarauna sortu zen arte oso zaila zen sentimenduei buruzko datuak edukitzea, eta batez ere garaiz edukitzea. Orain asko erraztu da hori, Interneti eskerrak. Jende askok ematen ditu iritziak sarean enpresez, produktuez, politikariez, etab.

Arazoa orain ez da ez dagoela informaziorik, baizik eta informazio-iturrien kopurua izugarri handia dela eta bakoitzak informazio-kopuru izugarriak dituela. Eskuz informazioa eskuratu, aztertu eta ondorioak atertatzea ezinezkoa da. Horretarako sistema automatikoak behar dira. Sentimendu-analisi edo iritzi-meatzaritza deritzon jarduerak erantzun nahi dio behar horri.

Sentimendu-analisiaren xedea funtsean testuak sailkatzea da: adierazpen subjektiboak dauzkaten dokumentuak eta ez dauzkatenak, subjektiboen artean iritzi positiboak, negatiboak eta neutroak adierazten dituzten pasarteak.

Liburu baten erreseinak, adibidez, normalean iritziak emango ditu haren edukiaz, pasarte batzuetan positiboak, beste batzuetan negatiboak eta beste datu batzuk, fitxa bibliografikoa adibidez, neutroak izango dira.

Kasu guztietan objektu batzuk eta haiei atxikitzen zaizkien atributuak edo ezaugarriak atzeman behar dira testuan. Esate baterako, produktua, konexioa edo inbertsioa objektuak dira garestia, geldoa edo arriskutsua, berriz, atributuak.

Hortik aurrera, batzuetan iritziak positiboak ala negatiboak diren jakitea nahikoa da, beste batzuetan, aldiz, zehazki jakin nahi da zer atributu edo ezaugarriri buruz zer iritzi positibo edo negatibo adierazten den.

Beste kasu batzuetan konparazioak egiten dira, adibidez, hotel hau beste hau baino garestiagoa da.

Sentimendu-analisiak interes handia sortu duenez, bada jendea analisi hori distortsionatzen saiatzen dena ere, iritzi-spamak sarean zirkularaziz. Horren ondorioz, sentimendu-analisiaren beste eginkizun batzuk spama dena eta baliagarria dena bereiztea eta baliagarriak diren iritziak garrantziaren arabera sailkatzea dira.

Goian esan bezala, objektuak identifikatu behar dira testuan. Objektu bat zehaztasun handiz identifikatzeko, haren osagaien eta azpiosagaien zuhaitza edo hierarkia eta osagai eta azpiosagai horien atributuen zuhaitza zehaztu behar dira. Hori, ordea, kasu batzuetan konplikatuegia izan daiteke eta nahikoa da objektuari bere osotasunean dagozkion iritziak eta haren atributuei buruzko iritziak identifikatzea. Iritzi-emailea identifikatzea ere interesa daiteke.

Dokumentu multzo bateko dokumentuak sailkatzeko modu bat lagin bat eskuz sailkatzea da, sistemak bi motak bereizten ikas dezan. Hori ez bada egiten, analisi sintaktikoan oinarritu behar da. Aditzak eta izenondoak dituzten esaldiak izaten dira iritziak adierazten dituztenak. Horiek hautatzen dira eta aditz edo izenondo horien testuingurua ere kontuan hartzen da. Testuinguru horretako hitzen kategoria gramatikalen arabera, kategoria-sekuentzia batzuei iritzia adierazteko probabilitate handiagoa esleitzen zaie eta beste batzuei txikiagoa. Horren ostean, agertzen diren terminoen maiztasunetan oinarrituriko teknika estatistikoak erabiltzen dira.

Sentimenduak hitzek, esaldiek eta esamoldeek adierazten dituztenez, horien bilduma bat, lexiko bat, osatu behar da sentimendu-analisian lan egiteko. Bilduma hori egiteko bi bide nagusi daude: lehen zerrenda bat osatu eta ondoren datu-base lexikal batean, WordNeten adibidez, zerrendako hitzen sinonimoak eta antonimoak bilatu, bilduma aberasteko, eta prozesua behin eta berriz errepikatu, hitz berririk ez dela agertzen egiaztatu arte, edo bestela corpus bat eta izenondo-zerrendak erabiliz, izenondo horiek eta beste batzuk lotzen dituzten juntagailuen bidez atzeman daitezke izaera bera (positiboa edo negatiboa) edo kontrakoa duten beste izenondo batzuk: erosoa baina garestia, sendoa eta fidagarria.


Jarduera honen xedea corpus bateko edukiak gaika edo entitateka antolatzea da, kontzeptuen analisia eta aldez aurretik prestaturiko hiztegiak erabiliz. Entitateen eta kontzeptuen erauzketa izaten da autokategorizazioaren aurreko urratsa.

Edukia metadatuz horniturik baldin badago, autokategorizazioa errazagoa da, baina gaur egun badaude metadaturik gabeko edukien autokategorizaziorako tresnak.


Badakit gaien enumerazio bat baino askoz gehiago ez dudala egin hemen eta hutsune asko utzi ditudala, baina espero dut tutik ez dakienari behintzat gai interesgarri honetara lehenbiziko hurbilketa bat egiteko baliagarria gertatuko zaiola.

Syndicate content