
Strojové učení se chová ve všech druzích aplikací, od aut s vlastním pohonem, přes rozpoznávání obrázků až po motory s doporučením online. Ale pokud nejste Googlem nebo Facebookem, je těžké dostat se na druh masivních datových souborů skutečného světa potřebných k testování a ověření programů strojového učení..
Yahoo pomohl napravit, že s vydáním čtvrtek, co to nazývalo "největší vůbec" datový soubor k dispozici vědcům strojového učení. Je to sbírka anonymizovaných uživatelských interakcí se zpravodajskými páry na webech, jako jsou Yahoo News a Yahoo Sports.
INSIDER: Jak TD Ameritrade Chief Data Officer řídí změnyYahoo říká, že v souboru je 110 miliard událostí - nebo 110 miliard záznamů o tom, kdy uživatel klikl na zpravodajský příběh nebo podnikl nějakou jinou akci ve zdroji - a zahrnuje 13,5 TB dat, nebo 1,5 TB komprimovaných. To je více než desetinásobek velikosti předchozího největšího datového souboru, který vydala Yahoo.

Data pocházejí z interakcí s jeho zpravodajským kanálem, oblast červenou barvou výše
"Data jsou životní krví výzkumu strojového učení," řekla společnost. „Přístup ke skutečně rozsáhlým souborům údajů je však privilegium, které bylo tradičně vyhrazeno výzkumníkům v oblasti strojového učení a vědcům s údaji, kteří pracují ve velkých společnostech - a mimo dosah většiny akademických vědců.“
Strojové učení se týká třídy programů, které se „učí“ a zlepšují jejich schopnost řešit problémy v průběhu času. Prvním příkladem byla detekce spamu, ale strojové učení se používá pro rozpoznávání obrázků, jazykový překlad a nesčetné množství dalších úkolů, včetně některých pro podnikání. Google nedávno uvedl, že se jedná o „přehodnocení všeho, co děláme“ kolem strojového učení.
Počítačoví vědci vytvářejí modely a vytvářejí algoritmy pro vedení systémů strojového učení, ale potřebují velké soubory dat, na kterých mohou tyto modely testovat a vylepšovat.
Mohou používat syntetické, uměle vytvořené datové sady, ale ty neodrážejí nepořádek a nepředvídatelné chování, které lidé projevují online, řekl Suju Rajan, ředitel výzkumu Yahoo pro personalizační vědu..
"Data v reálném světě jsou chaotická, představují mnoho výzev a tyto výzvy nemusí nutně myslet na to, když někdo vytvoří umělý soubor dat," řekla. "Pokud nezohledníte mé chování, algoritmus, který vytvoříte, nemusí fungovat tak dobře."
Očekává, že vědci využijí tato data k tomu, aby pomohli vytvořit lepší doporučení, jako jsou ty na Netflixu a Amazonu. Říká však, že by to také mohlo vést k dalším oblastem výzkumu, jako je získávání informací, hodnocení sociálních zdrojů nebo dokonce systémové inženýrství, protože poskytovatelům cloudu pomůže rozhodnout, jak zpracovávat data, když s nimi uživatelé interagují..
Uživatelská data měla být k dispozici ke stažení ve čtvrtek prostřednictvím programu sdílení dat společnosti Yahoo Labs Webscope, knihovny anonymizovaných datových sad pro nekomerční použití..
Je založen na interakcích uživatelů se zprávami Yahoo News, Sports, Finance, Movies a Real Estate. Data byla shromážděna za čtyři měsíce počátkem minulého roku od 20 milionů uživatelů Yahoo. Kromě údajů o interakcích obsahuje pro podskupinu uživatelů kategorizované demografické informace, jako věkové rozmezí a pohlaví. Vydává také název, shrnutí a klíčové fráze souvisejících zpravodajských článků.
Yahoo říká, že předchozí největší datový soubor, který loni zveřejnila online marketingová firma Criteo, měl velikost 1 TB a zahrnul přibližně 4 miliardy událostí.
Říká se, že jeho cílem je trochu vyrovnat podmínky pro akademické vědce, kteří často mají větší svobodu při provádění projektů s velkým dosahem než jejich vrstevníci v korporacích, ale kterým chybí data ze skutečného světa, aby to dokázali.
"Mohou být schopni vyřešit problémy způsobem, který můžeme využít v Yahoo, nebo přijít s novými výzkumnými problémy, na které jsme si ani neuvědomili," řekl Rajan.
Připojte se ke komunitám World World na Facebooku a LinkedIn a přidávejte komentáře k tématům, která jsou na prvním místě.