Høyfrekvente Handelssystemer Utforming
Høyfrekvent handel - HFT Hva er høyfrekvent handel - HFT HF-handel (HFT) er en plattform for handelshandel som bruker kraftige datamaskiner til å gjennomføre et stort antall bestillinger med svært høye hastigheter. Den bruker komplekse algoritmer til å analysere flere markeder og utføre bestillinger basert på markedsforhold. Vanligvis handler forhandlerne med de raskeste utføringshastighetene mer lønnsomt enn forhandlere med lavere utførelseshastigheter. BREAKING DOWN High-Frequency Trading - HFT Høyfrekvenshandel ble populær da børser begynte å tilby incentiver for bedrifter å legge likviditet til markedet. For eksempel har New York Stock Exchange (NYSE) en gruppe likviditetsleverandører kalt Supplemental Liquidity Providers (SLPs) som forsøker å legge til konkurranse og likviditet for eksisterende anførselstegn på børsen. Som et incitament til selskaper betaler NYSE et gebyr eller en rabatt for å gi likviditeten. I juli 2016 var den gjennomsnittlige SLP-rabatten 0,0019 for NYSE - og NYSE MKT-noterte verdipapirer på NYSE. Med millioner av transaksjoner per dag, resulterer dette i en stor del av overskuddet. SLP ble introdusert etter sammenbruddet av Lehman Brothers i 2008, da likviditet var en stor bekymring for investorer. Fordelene ved HFT Den store fordelen med HFT er at den har forbedret markedslikviditet og fjernet budspørsmål som tidligere hadde vært for lite. Dette ble testet ved å legge til avgifter på HFT, og som et resultat økte budspørsmålene. En studie vurderte hvordan kanadiske budspørsmålene endret seg da regjeringen introduserte avgifter på HFT, og det ble funnet at budspørsmål økte med 9. Kritikken til HFT HFT er kontroversiell og har blitt møtt med en eller annen kritisk kritikk. Den har erstattet en stor mengder meglerforhandlere og bruker matematiske modeller og algoritmer til å ta avgjørelser, ta menneskelig avgjørelse og samspill ut av ligningen. Beslutninger skjer i millisekunder, og dette kan føre til store markedsbevegelser uten grunn. Som et eksempel, Dow Jones Industrial Average (DJIA) Dow Jones Industrial Average (DJIA) hadde sin største intradag punktdråpe noensinne, falt 1000 poeng og droppet 10 på bare 20 minutter før de steg opp igjen. En regjeringsundersøkelse skyldte en massiv ordre som utløste et salg for krasjen. En ytterligere kritikk av HFT er at det gir store bedrifter mulighet til å tjene på bekostning av de små gutta, eller institusjonelle og retail investorer. En annen stor klage om HFT er likviditeten fra HFT er spøkelseslikviditet, noe som betyr at det gir likviditet som er tilgjengelig for markedet ett sekund og borte det neste, og hindrer handelsmenn i å faktisk handle med denne likviditeten. Høyfrekvens handelssystem design og prosess ledelse Høyfrekvent handelssystemdesign og prosesshåndtering Rådgiver: Roy E. Welsch. Avdeling: Systemdesign og Management Program. Utgiver: Massachusetts Institute of Technology Utgitt: 2009 Handelsfirmaer i dag er svært avhengige av data mining, datamodellering og programvareutvikling. Finansanalytikere utfører mange lignende oppgaver til de innen programvare og industri. Finansnæringen har imidlertid ennå ikke fullt ut vedtatt høyteknologiske systemkonstruksjonsrammer og prosesshåndteringsmetoder som har vært vellykkede i programvare - og produksjonsindustrien. Mange av de tradisjonelle metodene for produktdesign, kvalitetskontroll, systematisk innovasjon og kontinuerlig forbedring som finnes i ingeniørfagene, kan brukes på finansområdet. Denne oppgaven viser hvordan kunnskapen fra engineering disipliner kan forbedre design og prosesshåndtering av høyfrekvente handelssystemer. Høyfrekvente handelssystemer er beregningsbaserte. Disse systemene er automatiske eller halvautomatiske programvare systemer som er iboende komplekse og krever en høy grad av design presisjon. Utformingen av et høyfrekvent handelssystem knytter sammen flere felt, inkludert kvantitativ økonomi, systemdesign og software engineering. I finansindustrien, hvor matematiske teorier og handelsmodeller er relativt godt undersøkt, er evnen til å implementere disse designene i ekte handelspraksis et av hovedelementene i et investeringsselskaps konkurranseevne. Evnen til å konvertere investeringsideer til effektive handelssystemer effektivt og effektivt kan gi et investeringsselskap en stor konkurransefortrinn. (Forts.) Denne oppgaven gir en detaljert studie som består av høyfrekvent trading systemdesign, systemmodellering og prinsipper og prosesshåndtering for systemutvikling. Spesiell vekt legges på sikkerhetskopiering og optimalisering, som anses som de viktigste delene i å bygge et handelssystem. Denne forskningen bygger systemteknikkmodeller som styrer utviklingsprosessen. Det bruker også eksperimentelle handelssystemer til å verifisere og validere prinsipper som tas opp i denne oppgaven. Til slutt konkluderer denne oppgaven at systemstekniske prinsipper og rammer kan være nøkkelen til suksess for å implementere høyfrekvent trading eller kvantitative investeringssystemer. Avhandling (S. M.) - Massachusetts Institute of Technology, Systemdesign og Management Program, 2009. Katalogert fra PDF-versjon av avhandling. Inkluderer bibliografiske referanser (s. 78-79). Nøkkelord: System Design og Management Program. Mitt AccountBest Programmeringsspråk for Algoritmiske Trading Systems Et av de vanligste spørsmålene jeg mottar i QS-postbag er Hva er det beste programmeringsspråket for algoritmisk handel. Det korte svaret er at det ikke er noe beste språk. Strategiparametere, ytelse, modularitet, utvikling, fleksibilitet og kostnad må alle vurderes. Denne artikkelen vil skissere de nødvendige komponentene i en algoritmisk handelssystemarkitektur og hvordan beslutninger om implementering påvirker valg av språk. For det første vil hovedkomponentene i et algoritmisk handelssystem bli vurdert, for eksempel forskningsverktøy, porteføljeoptimerer, risikostyring og utførelsesmotor. Deretter undersøkes ulike handelsstrategier og hvordan de påvirker systemets utforming. Spesielt vil hyppigheten av handel og det sannsynlige handelsvolumet bli diskutert. Når handelsstrategien er valgt, er det nødvendig å arkivere hele systemet. Dette inkluderer valg av maskinvare, operativsystem og systemresistens mot sjeldne, potensielt katastrofale hendelser. Mens arkitekturen vurderes, må det tas hensyn til ytelse - både til forskningsverktøyene og i live-utførelsesmiljøet. Hva er Trading Systemet som prøver å gjøre Før du bestemmer deg for det beste språket som du skal skrive et automatisert handelssystem, er det nødvendig å definere kravene. Skal systemet være rent utførelsesbasert Vil systemet kreve en risikostyring eller porteføljekonstruksjonsmodul Vil systemet kreve en høy ytelse backtester For de fleste strategier kan handelssystemet deles inn i to kategorier: Forskning og signalgenerering. Forskning er opptatt av evaluering av en strategisk ytelse over historiske data. Prosessen med å evaluere en handelsstrategi over tidligere markedsdata kalles backtesting. Datastørrelsen og algoritmisk kompleksitet vil ha stor innvirkning på beregningsintensiteten til backtesteren. CPU-hastighet og samtidighet er ofte begrensende faktorer for optimalisering av eksekveringshastigheten for forskning. Signalgenerering er opptatt av å generere et sett av handelssignaler fra en algoritme og sende slike ordrer til markedet, vanligvis via en megling. For visse strategier er et høyt ytelsesnivå nødvendig. IO-problemer som nettverksbåndbredde og latens er ofte begrensende for optimalisering av kjøringssystemer. Dermed kan valg av språk for hver komponent i hele systemet være ganske annerledes. Type, frekvens og volum av strategi Typen av anvendt algoritmisk strategi vil ha en betydelig innvirkning på systemets utforming. Det vil være nødvendig å vurdere markedene som handles, tilkoblingen til eksterne dataleverandører, frekvensen og volumet av strategien, avstanden mellom enkel utvikling og ytelsesoptimalisering, samt hvilken som helst tilpasset maskinvare, inkludert samlokalisert tilpasset servere, GPUer eller FPGAer som kan være nødvendige. Teknologifunksjonene for en lavfrekvent amerikansk aksjestrategi vil være vesentlig forskjellig fra en høyfrekvent statistisk arbitragestrategi handel på futures markedet. Før valg av språk må mange dataleverandører evalueres som angår en strategi for hånden. Det vil være nødvendig å vurdere tilkobling til leverandøren, strukturen til eventuelle APIer, aktualitet av dataene, lagringskrav og resiliency i møte med en leverandør som går offline. Det er også lurt å ha rask tilgang til flere leverandører. Ulike instrumenter har alle sine egne lagringsbehov, hvor eksempler inkluderer flere tickersymboler for aksjer og utløpsdatoer for futures (for ikke å nevne noen spesifikke OTC-data). Dette må legges inn i plattformen. Frekvensen av strategien er sannsynligvis en av de største driverne for hvordan teknologibakken skal defineres. Strategier som bruker data hyppigere enn små eller andre barer krever betydelig vurdering med hensyn til ytelse. En strategi som overskrider andre streker (dvs. kryssdata) fører til en ytelsesdrevet design som det primære kravet. For høyfrekvente strategier må en betydelig mengde markedsdata lagres og evalueres. Programvare som HDF5 eller kdb brukes ofte til disse rollene. For å behandle de omfattende datamengder som er nødvendig for HFT-applikasjoner, må en omfattende optimalisert backtester og kjøresystem brukes. CC (muligens med noen assembler) er sannsynligvis den sterkeste språkkandidaten. Ultra-høyfrekvente strategier vil nesten absolutt kreve tilpasset maskinvare som FPGAer, bytte samlokalisering og kjerne nettverksgrensesnittinnstilling. Forskningssystemer Forskningssystemer involverer vanligvis en blanding av interaktiv utvikling og automatisert skripting. Den førstnevnte foregår ofte innenfor en IDE som Visual Studio, MatLab eller R Studio. Sistnevnte innebærer omfattende numeriske beregninger over mange parametere og datapunkter. Dette fører til et språkvalg som gir et rettferdig miljø for å teste koden, men gir også tilstrekkelig ytelse til å evaluere strategier over flere parameterdimensjoner. Typiske IDEer i dette rommet inkluderer Microsoft Visual CC, som inneholder omfattende feilsøkingsverktøy, kodefyllingsfunksjoner (via Intellisense) og enkle oversikter over hele prosjektstakken (via databasen ORM, LINQ) MatLab. som er designet for omfattende numerisk lineær algebra og vektoriserte operasjoner, men på en interaktiv konsoll måte R Studio. som bryter R statistisk språkkonsoll i en fullverdig IDE Eclipse IDE for Linux Java og C og semi-proprietære IDEer som Enthought Canopy for Python, som inkluderer databehandlingsbiblioteker som NumPy. SciPy. scikit-lær og pandas i et enkelt interaktivt (konsoll) miljø. For numerisk backtesting er alle ovennevnte språk egnet, selv om det ikke er nødvendig å bruke en GUIDE som koden vil bli utført i bakgrunnen. Den primære hensynet på dette stadiet er det av kjøringshastigheten. Et kompilert språk (for eksempel C) er ofte nyttig hvis dimensjonene for backtesting parameter er store. Husk at det er nødvendig å være forsiktig med slike systemer hvis det er tilfelle Tolkede språk som Python bruker ofte høypresterende biblioteker som NumPypandas for backtesting-trinnet, for å opprettholde en rimelig grad av konkurranseevne med kompilerte ekvivalenter. Til slutt vil språket som er valgt for backtesting, bestemmes av spesifikke algoritmiske behov, så vel som omfanget av biblioteker tilgjengelig på språket (mer på det nedenfor). Språket som brukes til backtester og forskningsmiljøer kan imidlertid være helt uavhengig av de som brukes i porteføljekonstruksjon, risikostyring og utførelseskomponenter, slik det vil bli sett. Portefølje - og risikostyring Porteføljebygging og risikostyringskomponenter blir ofte oversett av detaljhandelsalgoritmiske forhandlere. Dette er nesten alltid en feil. Disse verktøyene gir mekanismen som kapital vil bli bevart. De forsøker ikke bare å lette antallet risikobete, men reduserer også transaksjonen av handelen selv, og reduserer transaksjonskostnadene. Sofistikerte versjoner av disse komponentene kan ha en betydelig innvirkning på kvaliteten og konsistensen av lønnsomheten. Det er rett og slett å skape en stabil strategi, da porteføljekonstruksjonsmekanismen og risikostyringen lett kan endres for å håndtere flere systemer. Dermed bør de betraktes som essensielle komponenter ved inngangen til utformingen av et algoritmisk handelssystem. Arbeidet med porteføljesammensetningssystemet er å ta et sett av ønskede bransjer og produsere settet av faktiske handler som minimerer kvelning, opprettholder eksponeringer mot ulike faktorer (som sektorer, aktivaklasser, volatilitet etc.) og optimaliserer kapitalallokering til ulike strategier i en portefølje. Porteføljekonstruksjon reduseres ofte til et lineært algebraproblem (for eksempel en matrisefaktorisering) og dermed er ytelsen svært avhengig av effektiviteten av den numeriske lineære algebraimplementasjonen som er tilgjengelig. Vanlige biblioteker inkluderer uBLAS. LAPACK og NAG for C. MatLab har også omfattende optimaliserte matriksoperasjoner. Python benytter NumPySciPy for slike beregninger. En ofte gjenbalansert portefølje vil kreve et kompilert (og godt optimalisert) matrisebibliotek for å bære dette trinnet, for ikke å flaskehals handelssystemet. Risikostyring er en annen ekstremt viktig del av et algoritmisk handelssystem. Risiko kan komme i mange former: Økt volatilitet (selv om dette kan ses som ønskelig for enkelte strategier), økte korrelasjoner mellom aktivaklasser, motpartsstandard, serveravbrudd, svarte svanehendelser og uoppdagede feil i handelskoden, for å nevne en få. Risikostyringskomponenter forsøker å forutse virkningene av overdreven volatilitet og korrelasjon mellom aktivaklasser og deres påfølgende effekt (er) på handelskapital. Dette reduserer ofte til et sett med statistiske beregninger som Monte Carlo stresstester. Dette ligner veldig på beregningsbehovene til en derivatprisemotor og vil som sådan være CPU-bundet. Disse simulasjonene er svært parallelliserbare (se nedenfor), og i en viss grad er det mulig å kaste maskinvare på problemet. Utførelsessystemer Arbeidet med utførelsessystemet er å motta filtrerte handelssignaler fra porteføljekonstruksjon og risikostyringskomponenter og sende dem videre til megling eller annen markedsadgang. For de fleste detaljhandelsalgoritmiske handelsstrategier innebærer dette en API eller FIX-tilkobling til en megling som Interactive Brokers. De primære hensynene når du bestemmer deg for et språk, inkluderer kvalitet på API, tilgjengelighet for språkpakker for en API, eksekveringsfrekvens og forventet slipping. Kvaliteten på API-en refererer til hvor godt dokumentert det er, hvilken type ytelse det gir, om det er behov for frittstående programvare som skal nås, eller om en gateway kan etableres på en hodeløs måte (dvs. ingen GUI). Når det gjelder Interactive Brokers, må Trader WorkStation-verktøyet kjøres i et GUI-miljø for å få tilgang til API-en. Jeg måtte en gang installere en Desktop Ubuntu-utgave på en Amazon Cloud-server for å få tilgang til Interactive Brokers eksternt, bare av den grunn. De fleste APIer vil gi et C andor Java-grensesnitt. Det er vanligvis opp til samfunnet å utvikle språkspesifikke wrappers for C, Python, R, Excel og MatLab. Merk at med hver ekstra plugin brukt (spesielt API wrappers) er det mulig for bugs å krype inn i systemet. Test alltid plugins av denne typen, og sørg for at de holdes aktivt. Et verdifullt mål er å se hvor mange nye oppdateringer til en kodebase har blitt gjort i de siste månedene. Utførelsesfrekvens er av største betydning i utførelsesalgoritmen. Legg merke til at hundrevis av ordrer kan sendes hvert minutt og som sådan er ytelsen kritisk. Slippage vil bli påført gjennom et dårlig utførelseseksemplar, og dette vil ha en dramatisk innvirkning på lønnsomheten. Statisk-typede språk (se nedenfor) som CJava er generelt optimale for utførelse, men det er et kompromiss i utviklingstid, testing og enkel vedlikehold. Dynamisk typede språk, som Python og Perl, er nå generelt raske nok. Sørg alltid for at komponentene er utformet på en modulær måte (se nedenfor) slik at de kan byttes ut når systemet skalerer. Arkitektonisk planlegging og utviklingsprosess Komponentene til et handelssystem, frekvens - og volumkrav er omtalt ovenfor, men systeminfrastruktur har ennå ikke blitt dekket. De som handler som en detaljhandler eller arbeider i et lite fond vil trolig ha på seg mange hatter. Det vil være nødvendig å dekke alfa-modellen, risikostyring og utførelsesparametere, og også den endelige implementeringen av systemet. Før du drar inn i bestemte språk, vil utformingen av en optimal systemarkitektur bli diskutert. Separasjon av bekymringer En av de viktigste beslutningene som må gjøres i begynnelsen er hvordan å skille bekymringene i et handelssystem. I programvareutvikling betyr dette i hovedsak hvordan man bryter opp de ulike aspektene av handelssystemet i separate modulære komponenter. Ved å utstede grensesnitt på hver av komponentene er det enkelt å bytte ut deler av systemet for andre versjoner som hjelper ytelse, pålitelighet eller vedlikehold uten å endre ekstern avhengighetskode. Dette er den beste praksis for slike systemer. For strategier ved lavere frekvenser anbefales slike praksiser. For ultrahøyfrekvenshandel kan regelboken ignoreres på bekostning av å tilpasse systemet for enda bedre ytelse. Et mer tett koblet system kan være ønskelig. Å lage et komponentkart av et algoritmisk handelssystem er verdt en artikkel i seg selv. En optimal tilnærming er imidlertid å sørge for at det finnes separate komponenter for de historiske og sanntidsmarkedsdatainngangene, datalagring, datatilgang API, backtester, strategiparametere, porteføljekonstruksjon, risikostyring og automatiserte eksekveringssystemer. For eksempel, hvis datalageren som brukes, for tiden er underpresterende, selv ved betydelige optimaliseringsnivåer, kan den byttes ut med minimal omskrivning til datainntaket eller datatilgangsp API. Så langt som backtesteren og de etterfølgende komponentene er det ingen forskjell. En annen fordel med separerte komponenter er at det tillater at en rekke programmeringsspråk brukes i det totale systemet. Det er ikke nødvendig å være begrenset til et enkelt språk hvis kommunikasjonsmetoden til komponentene er språkavhengig. Dette vil være tilfelle hvis de kommuniserer via TCPIP, ZeroMQ eller annen språkavhengig protokoll. Som et konkret eksempel kan du vurdere om et backtesting system skrives i C for antall knusende ytelse, mens porteføljeadministrator og kjøringssystemer er skrevet i Python ved hjelp av SciPy og IBPy. Prestasjonshensyn Prestasjoner er et vesentlig hensyn til de fleste handelsstrategier. For høyere frekvensstrategier er det den viktigste faktoren. Ytelse dekker et bredt spekter av problemer, for eksempel algoritmisk eksekveringshastighet, nettverksforsinkelse, båndbredde, data IO, konkurranseparallelisme og skalering. Hver av disse områdene er individuelt dekket av store lærebøker, så denne artikkelen vil bare skrape overflaten til hvert emne. Arkitektur og språkvalg vil nå bli diskutert med tanke på deres effekt på ytelse. Den rådende visdom som uttalt av Donald Knuth. en av fedrene til datavitenskap, er at for tidlig optimalisering er roten til alt ondt. Dette er nesten alltid tilfelle - unntatt når man bygger en høyfrekvent handelsalgoritme For de som er interessert i lavere frekvensstrategier, er en felles tilnærming å bygge et system på den enkleste måten og bare optimalisere etter hvert som flaskehalsene begynner å vises. Profileringsverktøy brukes til å avgjøre hvor flaskehalser oppstår. Profiler kan gjøres for alle faktorene som er oppført ovenfor, enten i et MS Windows eller Linux-miljø. Det er mange operativsystem og språkverktøy tilgjengelig for det, samt tredjepartsverktøy. Språkvalg vil nå bli diskutert i sammenheng med ytelse. C, Java, Python, R og MatLab inneholder alle høyytelsesbiblioteker (enten som en del av deres standard eller eksternt) for grunnleggende datastruktur og algoritmisk arbeid. C-skip med Standard Template Library, mens Python inneholder NumPySciPy. Vanlige matematiske oppgaver finnes i disse bibliotekene, og det er sjelden gunstig å skrive en ny implementering. Ett unntak er at høyt tilpasset maskinvarearkitektur kreves, og en algoritme gjør omfattende bruk av proprietære utvidelser (for eksempel tilpassede caches). Men ofte gjenoppfinnelse av hjulet avfall tid som kan være bedre brukt å utvikle og optimalisere andre deler av handelsinfrastrukturen. Utviklingstiden er ekstremt verdifull, spesielt i sammenheng med eneste utviklere. Latency er ofte et problem med utførelsessystemet, da forskningsverktøyene vanligvis ligger på samme maskin. For det første kan latens forekomme på flere punkter langs utførelsesbanen. Databaser må konsulteres (disknetwork latency), signaler må genereres (operativsystem, kernel messaging latency), handel signaler sendt (NIC latency) og ordre behandlet (bytte systemer interne latency). For høyere frekvensoperasjoner er det nødvendig å bli godt kjent med kernaloptimalisering, samt optimalisering av nettverksoverføring. Dette er et dypt område og er betydelig utenfor artikkelen, men hvis en UHFT-algoritme er ønsket, så vær oppmerksom på dybden av kunnskap som kreves. Caching er veldig nyttig i verktøykassen til en kvantitativ handelsutvikler. Caching refererer til konseptet om lagring av ofte tilgangsdata på en måte som tillater høyere ytelse, på bekostning av potensiell stallhet av dataene. En vanlig brukstilfelle skjer i webutvikling når du tar data fra en diskbasert relasjonsdatabase og legger den inn i minnet. Eventuelle påfølgende forespørsler om dataene behøver ikke å treffe databasen, og prestasjonsgevinstene kan derfor være vesentlige. For handelssituasjoner kan caching være svært gunstig. For eksempel kan dagens status for en strategiportefølje lagres i en cache til den er rebalansert, slik at listen ikke trenger å bli regenerert på hver krets av handelsalgoritmen. Slike regenerering er sannsynligvis en høy CPU eller disk IO-operasjon. Imidlertid er caching ikke uten sine egne problemer. Regenerering av hurtigbufferdata på en gang, på grunn av volatiliseringen av hurtiglagringsplassen, kan stille betydelig etterspørsel etter infrastruktur. Et annet problem er hundespann. hvor flere generasjoner av en ny bufferkopi utføres under ekstremt høy belastning, noe som fører til kaskadesvikt. Dynamisk minneallokering er en dyr operasjon i programvareutførelse. Derfor er det avgjørende at høyere prestasjonshandel applikasjoner skal være godt klar over hvordan minne blir tildelt og fordelt under programflyten. Nyere språkstandarder som Java, C og Python utfører automatisk automatisk søppelsamling. som refererer til deallokering av dynamisk allokert minne når gjenstander går utenfor omfanget. Søppelsamling er ekstremt nyttig under utvikling, da det reduserer feil og hjelpevennlighet. Det er imidlertid ofte suboptimal for visse høyfrekvente handelsstrategier. Tilpasset søppelinnsamling er ofte ønsket for disse tilfellene. I Java, for eksempel ved å stille inn søppelkollektor og haugkonfigurasjon, er det mulig å oppnå høy ytelse for HFT-strategier. C gir ikke en innfødt søppelkollektor, og det er derfor nødvendig å håndtere all minneallokering som en del av en objektgjennomføring. Mens potensielt feil utsatt (potensielt fører til dangling pointers) er det ekstremt nyttig å ha finkornet kontroll over hvordan objekter vises i bunken for visse applikasjoner. Når du velger språk, sørg for å studere hvordan søppelsamleren fungerer, og om den kan modifiseres for å optimalisere for en bestemt brukstilstand. Mange operasjoner i algoritmiske handelssystemer er egnet til parallellisering. Dette refererer til konseptet med å utføre flere programmatiske operasjoner samtidig, dvs. parallelt. Såkalte embarassingly parallelle algoritmer inkluderer trinn som kan beregnes helt uavhengig av andre trinn. Visse statistiske operasjoner, som Monte Carlo-simuleringer, er et godt eksempel på embarassingly parallelle algoritmer, da hver tilfeldig tegning og etterfølgende baneoperasjon kan beregnes uten kjennskap til andre baner. Andre algoritmer er bare delvis parallelliserbare. Fluiddynamiske simuleringer er et eksempel der domenet til beregning kan deles opp, men i siste omgang må disse domenene kommunisere med hverandre og dermed operasjonene er delvis sekvensielle. Paralleliserbare algoritmer er underlagt Amdahls Law. som gir en teoretisk øvre grense til ytelsesøkningen av en parallellisert algoritme når den er underlagt N separate prosesser (for eksempel på en CPU-kjerne eller tråd). Parallellisering har blitt stadig viktigere som et middel til optimalisering siden prosessorens klokkehastighet har stagnert, da nyere prosessorer inneholder mange kjerner som skal utføre parallelle beregninger. Stigningen av forbrukergrafikkhardware (hovedsakelig for videospill) har ført til utviklingen av grafiske prosesseringsenheter (GPUer), som inneholder hundrevis av kjerner for svært samtidige operasjoner. Slike GPUer er nå veldig rimelige. Rammer på høyt nivå, som Nvidias CUDA, har ført til utbredt adopsjon i akademia og finans. Slike GPU-maskinvare er generelt bare egnet for forskningssiden ved kvantitativ finansiering, mens andre mer spesialiserte maskinvare (inkludert Feltprogrammerbare Gate Arrays - FPGAs) brukes til (U) HFT. I dag støtter de fleste moderne langaugene en grad av samtidighet. Således er det greit å optimalisere en backtester, siden alle beregninger er generelt uavhengige av de andre. Skalering i programvare engineering og operasjoner refererer til evnen til systemet til å håndtere stadig økende belastninger i form av større forespørsler, høyere prosessorbruk og mer minneallokering. I algoritmisk handel er en strategi i stand til å skalere hvis den kan akseptere større mengder kapital og fortsatt produsere konsistent avkastning. Handelssteknologi stabelen skalerer hvis den kan tåle større handelsvolumer og økt ventetid uten flaskehalsing. Mens systemene skal være skreddersydde, er det ofte vanskelig å forutse på forhånd hvor en flaskehals vil oppstå. Rigourous logging, testing, profilering og overvåking vil bidra sterkt til å tillate et system å skalere. Språkene er ofte beskrevet som uskalelig. Dette er vanligvis et resultat av feilinformasjon, snarere enn hardt. Det er den totale teknologistakken som bør fastslås for skalerbarhet, ikke språket. Klart visse språk har større ytelse enn andre, spesielt brukstilfeller, men ett språk er aldri bedre enn en annen i alle forstand. En måte å håndtere skala på er å skille bekymringer, som nevnt ovenfor. For å ytterligere introdusere evnen til å håndtere pigger i systemet (dvs. plutselig volatilitet som utløser en flåte av handler), er det nyttig å lage en meldingskøararkitektur. Dette innebærer ganske enkelt å plassere et meldingskøesystem mellom komponenter slik at ordrer blir stablet opp hvis en bestemt komponent ikke klarer å behandle mange forespørsler. I stedet for at forespørsler går tapt, holdes de bare i en stabel til meldingen håndteres. Dette er spesielt nyttig for å sende handler til en utførelsesmotor. Hvis motoren lider under tung ventetid, vil den sikkerhetskopiere handler. En kø mellom handelssignalgeneratoren og utførelses-API-en vil lindre dette problemet på bekostning av potensiell handel slippage. En respektert åpen kildekode meldingskronemegler er RabbitMQ. Maskinvare og operativsystemer Maskinvaren som kjører strategien din, kan få betydelig innvirkning på lønnsomheten til algoritmen din. Dette er ikke et problem begrenset til høyfrekvente handelsmenn heller. Et dårlig valg i maskinvare og operativsystem kan føre til maskinkrasj eller omstart i det mest uopprettelige øyeblikket. Derfor er det nødvendig å vurdere hvor søknaden din vil bli bosatt. Valget er vanligvis mellom en personlig stasjonær maskin, en ekstern server, en skyleverandør eller en utvekslingssamlokalisert server. Stasjonære maskiner er enkle å installere og administrere, spesielt med nyere brukervennlige operativsystemer som Windows 78, Mac OSX og Ubuntu. Desktop systemer har imidlertid noen betydelige ulemper, men. Det fremste er at versjonene av operativsystemer som er designet for stasjonære maskiner, sannsynligvis vil kreve rebootspatching (og ofte i verste fall). De bruker også opp flere beregningsmessige ressurser i kraft av å kreve et grafisk brukergrensesnitt (GUI). Bruk av maskinvare i et hjem (eller lokalt kontor) miljø kan føre til internettforbindelse og strømbruddsproblemer. Den største fordelen med et stasjonært system er at betydelig beregningsgrad kan kjøpes for brøkdel av kostnaden for en ekstern dedikert server (eller et skybasert system) med sammenlignbar hastighet. En dedikert server eller skybasert maskin, mens den ofte er dyrere enn et skrivebordsmulighet, muliggjør mer betydelig redundansinfrastruktur, for eksempel automatiserte data-sikkerhetskopier, muligheten til lettere å sikre oppetid og fjernovervåkning. De er vanskeligere å administrere siden de krever muligheten til å bruke ekstern påloggingsfunksjoner i operativsystemet. I Windows er dette vanligvis via GUI Remote Desktop Protocol (RDP). I Unix-baserte systemer brukes kommandolinjen Secure Shell (SSH). Unix-basert serverinfrastruktur er nesten alltid kommandolinjebasert, noe som gjør at GUI-baserte programmeringsverktøy (for eksempel MatLab eller Excel) umiddelbart kan være ubrukelig. En samlokalisert server, som uttrykket brukes i kapitalmarkedene, er rett og slett en dedikert server som ligger innenfor en bytte for å redusere ventetiden til handelsalgoritmen. Dette er absolutt nødvendig for visse høyfrekvente handelsstrategier, som er avhengige av lav ventetid for å generere alfa. Det endelige aspektet til maskinvarevalg og valget av programmeringsspråk er plattformuavhengighet. Er det behov for at koden skal gå over flere forskjellige operativsystemer Er koden designet for å bli kjørt på en bestemt type prosessorarkitektur, for eksempel Intel x86x64 eller vil det være mulig å kjøre på RISC-prosessorer som de som er produsert av ARM Disse problemene vil være svært avhengig av frekvens og type strategi som implementeres. Resilience and Testing En av de beste måtene å miste mye penger på algoritmisk handel er å skape et system uten spenning. Dette refererer til holdbarheten til sytemet når det er underlagt sjeldne hendelser, som for eksempel meglingfellesskap, plutselig overflødig volatilitet, regionalt nedetid for en skysservereoperatør eller en tilfeldig sletting av en hel handelsdatabase. År med fortjeneste kan elimineres innen sekunder med en dårlig utformet arkitektur. Det er helt nødvendig å vurdere problemer som debuggng, testing, logging, sikkerhetskopiering, høy tilgjengelighet og overvåkning som kjernekomponenter i systemet. Det er sannsynlig at i noen rimelig komplisert tilpasset kvantitativ handelsapplikasjon vil minst 50 utviklings tid bli brukt på feilsøking, testing og vedlikehold. Nesten alle programmeringsspråk sender enten med en tilhørende debugger eller har respekterte tredjepartsalternativer. I hovedsak tillater en debugger utførelse av et program med innføring av vilkårlig bruddpunkter i kodebanen, som midlertidig stopper gjennomføringen for å undersøke systemets tilstand. Hovedfordelen ved feilsøking er at det er mulig å undersøke kodeksens oppførsel før et kjent krasjpunkt. Feilsøking er en viktig komponent i verktøykassen for å analysere programmeringsfeil. Imidlertid blir de mer brukt i kompilerte språk som C eller Java, da tolkede språk som Python ofte er enklere å feilsøke på grunn av færre LOC og mindre verbose setninger. Til tross for denne tendensen, sender Python med pdb. som er et sofistikert feilsøkingsverktøy. Microsoft Visual C IDE har omfattende GUI-feilsøkingsverktøy, mens for kommandolinjens Linux C-programmator eksisterer gdb debugger. Testing i programvareutvikling refererer til prosessen med å bruke kjente parametere og resultater til bestemte funksjoner, metoder og objekter innenfor en kodebase, for å simulere atferd og evaluere flere kodebaner, noe som bidrar til å sikre at et system oppfører seg som det skal. Et nyere paradigme er kjent som Test Driven Development (TDD), der testkoden er utviklet mot et spesifisert grensesnitt uten implementering. Før ferdigstillelse av den faktiske kodebasen, vil alle tester mislykkes. Som kode er skrevet for å fylle ut blanks, vil testene etter hvert passere, og utviklingen skal da opphøre. TDD krever omfattende forhåndsspesifikasjon design samt en sunn grad av disiplin for å kunne utføre suksess. I C gir Boost et enhetstestingsramme. I Java eksisterer JUnit-biblioteket for å oppfylle samme formål. Python har også den unittest modulen som en del av standardbiblioteket. Mange andre språk har enhetstestingsrammer, og ofte er det flere alternativer. I et produksjonsmiljø er sofistikert logging helt avgjørende. Logging refererer til prosessen med å skrive ut meldinger, med ulike grader av alvorlighetsgrad, angående utførelsesadferd av et system til en flat fil eller database. Logger er en første angrepslinje når du jakter på uventet programkørselstid. Dessverre har manglene i et loggsystem bare en tendens til å bli oppdaget etter det. Som med sikkerhetskopier diskutert nedenfor, bør et loggsystem være gitt i betraktning FØR et system er utformet. Både Microsoft Windows og Linux kommer med omfattende systemloggingskapasitet, og programmeringsspråk har en tendens til å sendes med standard loggbiblioteker som dekker de fleste brukssaker. Det er ofte lurt å sentralisere logginformasjon for å analysere det på et senere tidspunkt, da det ofte kan føre til ideer om forbedring av ytelse eller feilreduksjon, noe som nesten helt sikkert vil ha en positiv innvirkning på handelsavkastningen. Mens logging av et system vil gi informasjon om hva som har skjedd tidligere, vil overvåking av et program gi innsikt i hva som skjer akkurat nå. Alle aspekter av systemet bør vurderes for overvåking. Systemnivåmålinger som diskbruk, tilgjengelig minne, nettverksbåndbredde og CPU-bruk gir grunnleggende lastinformasjon. Handelsmålinger som abnorm prisvekst, plutselige hurtige drawdowns og kontoeksponering for ulike sektorer bør også overvåkes kontinuerlig. Videre bør det opprettes et terskelsystem som gir varsel når visse beregninger brytes, forhøyelse av varslingsmetoden (e-post, SMS, automatisk telefonsamtale) avhengig av metriskens alvorlighetsgrad. Systemovervåkning er ofte domenet til systemadministratoren eller driftslederen. Men som en eneste handelsutvikler må disse beregningene etableres som en del av det større design. Mange løsninger for overvåking finnes: proprietære, vert og åpen kildekode, som tillater omfattende tilpasning av beregninger for et bestemt brukstilfelle. Sikkerhetskopier og høy tilgjengelighet bør være primære bekymringer for et handelssystem. Consider the following two questions: 1) If an entire production database of market data and trading history was deleted (without backups) how would the research and execution algorithm be affected 2) If the trading system suffers an outage for an extended period (with open positions) how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering It is imperative to put in place a system for backing up data and also for testing the restoration of such data. Many individuals do not test a restore strategy. If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment Similarly, high availability needs to be baked in from the start. Redundant infrastructure (even at additional expense) must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such systems. I wont delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system. The next stage is to discuss how programming languages are generally categorised. Type Systems When choosing a language for a trading stack it is necessary to consider the type system . The languages which are of interest for algorithmic trading are either statically - or dynamically-typed . A statically-typed language performs checks of the types (e. g. integers, floats, custom classes etc) during the compilation process. Such languages include C and Java. A dynamically-typed language performs the majority of its type-checking at runtime. Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors. However, type-checking doesnt catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations. Dynamic languages (i. e. those that are dynamically-typed) can often lead to run-time errors that would otherwise be caught with a compilation-time type-check. For this reason, the concept of TDD (see above) and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type (and thus memory requirements) are known at compile-time. In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performance hit. Libraries for dynamic languages, such as NumPySciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary One of the biggest choices available to an algorithmic trading developer is whether to use proprietary (commercial) or open source technologies. Det er fordeler og ulemper for begge tilnærminger. It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensingmaintenance costs. The Microsoft stack (including Visual C, Visual C) and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software. Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Microsoft and MathWorks both provide extensive high quality documentation for their products. Further, the communities surrounding each tool are very large with active web forums for both. The software allows cohesive integration with multiple languages such as C, C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ. MatLab also has many pluginslibraries (some free, some commercial) for nearly any quantitative research domain. There are also drawbacks. With either piece of software the costs are not insignificant for a lone trader (although Microsoft does provide entry-level version of Visual Studio for free). Microsoft tools play well with each other, but integrate less well with external code. Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading. The main issue with proprietary products is the lack of availability of the source code. This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime. Much of the alternative asset space makes extensive use of open-source Linux, MySQLPostgreSQL, Python, R, C and Java in high-performance production roles. However, they are far from restricted to this domain. Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time. Python and R require far fewer lines of code (LOC) to achieve similar functionality, principally due to the extensive libraries. Further, they often allow interactive console based development, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so (unless in the HFT space), it is worth giving extensive consideration to an open source technology stack. Python and R possess significant development communities and are extremely well supported, due to their popularity. Documentation is excellent and bugs (at least for core libraries) remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces. A typical Linux server (such as Ubuntu) will often be fully command-line oriented. In addition, Python and R can be slow for certain execution tasks. There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependencyversioning issues it is far less common to have to deal with incorrect library versions in such environments. Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies. In particular I use: Ubuntu, MySQL, Python, C and R. The maturity, community size, ability to dig deep if problems occur and lower total cost ownership (TCO) far outweigh the simplicity of proprietary GUIs and easier installations. Having said that, Microsoft Visual Studio (especially for C) is a fantastic Integrated Development Environment (IDE) which I would also highly recommend. Batteries Included The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants. C, Java and Python all now possess extensive libraries for network programming, HTTP, operating system interaction, GUIs, regular expressions (regex), iteration and basic algorithms. C is famed for its Standard Template Library (STL) which contains a wealth of high performance data structures and algorithms for free. Python is known for being able to communicate with nearly any other type of systemprotocol (especially the web), mostly through its own standard library. R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code (which can be found in portfolio optimisation and derivatives pricing, for instance). Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library. In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPySciPyPandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research. Further, high-performance plugins exist for access to the main relational databases, such as MySQL (MySQLC), JDBC (JavaMatLab), MySQLdb (MySQLPython) and psychopg2 (PostgreSQLPython). Python can even communicate with R via the RPy plugin An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API. Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs. In particular, Interactive Brokers can be connected to via the IBPy plugin. If high-performance is required, brokerages will support the FIX protocol . Conclusion As is now evident, the choice of programming language(s) for an algorithmic trading system is not straightforward and requires deep thought. The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit of a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change. A trading system is an evolving tool and it is likely that any language choices will evolve along with it. Just Getting Started with Quantitative Trading
Comments
Post a Comment